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内 容 简 介 


经 典 统计 理论 和 机 器 学 习 方 法 为 数据 挖掘 提供 了 必要 的 分 析 技 术 。 本 书 系统 地 介绍 统计 分 析 和 机 
器 学 习 领 域 中 最 为 重要 和 流行 的 多 种 技术 及 其 基本 原理 ， 在 详解 有 关 算法 的 基础 上 ， 结 合 大 量 R 语 言 
实例 演示 了 这 些 理论 在 实践 中 的 使 用 方法 。 具 体内 容 被 分 成 三 个 部 分 ， 即 R 语 言 编程 基础 、 基 于 统计 
的 数据 分 析 方 法 以 及 机 器 学 习 理论 。 统计 分 析 与 机 器 学 习 部 分 又 具体 介绍 了 参数 估计 、 假 设 检验 、 极 
大 似 然 估 计 、 非 参数 检验 方法 (包括 列 联 分 析 、 符 号 检验 、 符 号 秩 检验 等 )、 方 差分 析 、 线 性 回归 ( 包 
括 岭 回归 和 Lasso 方 法 )、 逻 辑 回归 、 支 持 向 量 机 、 育 类 分 析 ( 包 括 K 均 值 算法 和 EM 算法 ) 和 人 工 神经 
网 络 等 内 容 。 同 时 ,统计 理论 的 介绍 也 为 深化 读者 对 于 后 续 机 器 学 习 部 分 的 理解 提供 了 很 大 助 益 。 知 
识 结构 和 阅读 进度 的 安排 上 既 兼 顾 了 循序 渐进 的 学 习 规 律 ， 亦 统筹 考虑 了 夯实 基础 的 必要 性 。 本 书 内 
容 与 实际 应 用 结合 紧密 ， 又 力求 突出 深入 浅 出 、 系 统 翔实 之 特色 ， 对 算法 原理 的 解释 更 是 细致 入 微 。 

本 书 非常 适合 大 专 院 校 相关 专业 师 生 自学 研究 之 用 , 亦 可 作为 数据 分 析 和 数据 挖掘 相关 领域 从 业 
人 员 的 参考 指导 用 书 。 
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前 言 





数据 一 一 蕴藏 巨大 财富 的 宝藏 


19 世纪 中 时 ， 英 国 伦敦 曾经 爆发 过 一 场 规模 很 大 的 霍乱 。 由 于 彼 时 人 们 对 霍乱 的 致 病 机 理 
还 不 其 了 解 ， 因 此 疫情 在 很 长 一 段 时间 内 都 无 法 得 到 有 效 的 控制 。 英 国医 师 约 翰 。 斯 诺 用 标点 
地 图 的 方法 研究 了 当地 水 井 分 布 和 霍乱 患者 分 布 之 间 的 关系 ， 发 现 有 一 口水 井 周围 ， 霍 乱 患 病 
率 明 显 较 高 ， 借 此 找到 了 霍乱 暴发 的 原因 : 一 口 被 污染 的 水 井 。 关 闭 这 口水 井 之 后 ， 霍 乱 的 发 
病 率 明 显 下 降 。 这 便 是 数据 分 析 在 历史 上 展示 其 威力 的 一 次 成 功 案例 。 


毋庸 置疑 ， 数 据 是 一 座 巨 大 的 宝藏 ， 而 我 们 要 做 的 恰恰 就 是 挖掘 这 座 宝藏 。 特 别 是 进入 信 
息 时 代 以 来 ,“ 大 数据 ”这 个 概念 更 是 越 来 越 多 地 被 人 们 提 及 。 很 多 国家 甚至 把 大 数据 提升 到 国 
家 战略 的 高 度 。 例 如 ， 我 国 的 “十 三 五 ”规划 建议 中 就 提出 :“ 实 施 国家 大 数据 战略 ， 推 进 数据 
资源 开放 共享 。” 


尽管 “大 数据 ”这 个 名 词 听 起 来 很 时 器 ， 但 是 由 此 反映 出 来 的 对 于 数据 本 身 的 重视 却 并 不 
是 一 个 多 么 新 鲜 的 现象 。 中 国 古 代 的 施政 治国 观念 中 就 非常 强调 掌握 数据 的 重要 性 。 例 如 商 识 
变法 中 就 提出 ,“ 强 国 知 十 三 数 …… 欲 强国 ， 不 知 国 十 三 数 ， 地 虽 利 ， 民 虽 众 ， 国 愈 弱 至 削 ”。 


随 着 时 代 的 进步 ， 人 们 对 于 数据 的 重视 程度 更 是 有 增 无 减 ， 世 界 各 国 ， 概 莫 能 外 。 列 宁 就 
曾经 说 过 :“ 有 许多 问题 , 而 且 是 涉及 现代 国家 经 济 制度 和 这 种 制度 之 发 展 的 最 根本 问题 …… 如 
果 不 根据 某 个 一 定 的 纲要 收集 并 经 统计 专家 综合 的 关于 某 一 国家 全 国情 况 的 浩 繁 材料 ， 就 无 法 
加 以 比较 并 认真 地 研究 .” 毛 主席 也 曾 指出 :“ 胸 中 有 “ 数 " 。 就 是 说 ， 对 情况 和 问题 一 定 要 注意 
到 它们 的 数量 方面 ， 要 有 基本 的 数量 分 析 。 任 何 质量 都 表现 为 一 定 的 数量 ， 没 有 数量 也 就 没有 
质量 。” 
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R 语言 实战 一 一 机 器 学 习 与 数据 分 析 


“大 数据 时 代 ， 统 计 学 依然 是 数据 分 析 灵 魂 。 


人 民 网 在 2015 年 7 月 曾经 以 《大 数据 时 代 ， 统 计 学 依然 是 数据 分 析 灵 魂 》 为 题 刊 发 了 一 篇 
对 某 位 知名 专家 的 访谈 。 其 间 ， 这 位 专家 就 形象 地 说 道 :“ 大 数据 是 “原油 ”而 不 是 “汽油 ”， 
不 能 被 直接 拿 来 使 用 。 就 像 股票 市 场 ， 即 使 把 所 有 的 数据 都 公布 出 来 ， 不 懂 的 人 依然 不 知道 数 
据 代表 的 信息 ”同时 该 篇 文章 也 引用 了 美国 加 州 大 学 伯克利 分 校 近 克 尔 。 乔 丹 教授 的 观点 : 
“没有 系统 的 数据 科学 作为 指导 的 大 数据 研究 , 就 如 同 不 利用 工程 科学 的 知识 来 建造 桥梁 , 很 多 
桥梁 可 能 会 声 塌 ， 并 带 来 严重 的 后 果 。” 

面 对 大 数据 ， 现 在 很 多 人 可 能 会 时 常 把 数据 挖掘 这 样 时 轰 又 深奥 的 词汇 挂 在 嘴 边 ， 而 认为 
或 许 传统 的 统计 学 此 时 已 经 不 合 时 宜 。 这 种 观点 在 我 看 来 至 少 有 两 个 致命 的 问题 。 首 先 ， 传 统 
的 统计 学 方法 仍然 在 各 个 领域 扮演 着 不 可 取代 的 重要 作用 。 包 括 生 命 科学 、 经 济 学 、 管 理学 等 
在 内 的 诸多 学 科 都 涉及 大 量 的 数据 分 析 工 作 ， 并 从 中 汲取 推进 备 自 领域 进步 的 动力 。 这 里 所 请 
的 数据 分 析 工 作 ， 更 多 的 是 基于 传统 统计 分 析 方法 来 完成 的 。 其 次 ， 很 多 数据 挖掘 的 技术 又 是 
建立 在 传统 的 统计 理论 基础 之 上 的 。 例 如 ， 期 望 最 大 化 算法 中 就 用 到 了 极 大 似 然 估计 。 不 仅 如 
此 ， 像 计量 经 济 中 常常 用 到 的 “回归 ”， 它 既是 一 种 数据 挖掘 方法 ， 同 时 又 是 传统 的 统计 学 中 必 
不 可 少 的 重要 组 成 部 分 。 








机 器 学 习 VS 数据 挖掘 


在 大 量 数据 背后 很 可 能 隐藏 了 某 些 有 用 的 信息 或 知识 ， 而 数据 挖掘 就 是 指 通过 一 定 方法 探 
寻 这 些 信息 或 知识 的 过 程 。 另 一 方面 ， 数 据 挖掘 同时 受到 很 多 学 科 和 领域 的 影响 ， 大 体 上 看 ， 
数据 挖掘 可 以 被 视 为 数据 库 、 机 器 学 习 和 统计 学 三 者 的 交叉 。 简 单 来 说 ， 对 数据 挖掘 而 言 ， 数 
据 库 提供 了 数据 管理 技术 , 而 机 器 学 习 和 统计 学 则 提供 了 数据 分 析 技 术 。 而 本 书 所 关注 的 重点 ， 
恰恰 在 于 以 机 器 学 习 和 统计 学 为 基础 的 数据 分 析 方 法 。 

从 名 字 中 就 不 难看 出 ， 机 器 学 习 最 初 的 研究 动机 是 为 了 让 计算 机 具有 人 类 一 样 的 学 习 能 
以 便 实现 人 工 智 能 。 显 然 ， 没 有 学 习 能 力 的 系统 很 难 被 认为 是 智能 的 。 而 这 个 所 谓 的 学 习 ， 就 
是 指 基于 一 定 的 “经 验 ” 而 构筑 起 属于 自己 之 “知识 ”的 过 程 。 小 星 蚜 找 妈 妈 的 故事 很 好 地 说 
明了 这 一 过 程 。 小 内 蚜 们 没有 见 过 自己 的 妈妈 ， 它 们 向 鸭子 请 教 。 鸭子 告诉 它们 :“ 你 们 的 妈妈 
有 两 只 大 眼睛 。” 看 到 金鱼 有 两 只 大 眼睛 ， 小 旺 蛙 们 便 把 金鱼 误 认为 是 自己 的 妈妈 。 于 是 金鱼 告 
诉 它 们 :“ 你 们 妈妈 的 肚皮 是 白色 的 。” 小 晴 星 们 看 见 螃 蟹 是 白 肚 皮 ， 又 把 螃蟹 误 认为 是 自己 的 
妈妈 。 螃 蟹 便 告诉 它们 :“ 你 们 的 妈妈 有 四 条 腿 .” 小 晴 蛙 们 看 见 一 只 乌龟 摆动 着 四 条 腿 在 水 里 
游 ， 就 把 乌龟 误 认 为 是 自己 的 妈妈 。 于 是 乌龟 又 说 :“ 你 们 的 妈妈 披 着 绿 衣裳 ， 走 起 路 来 一 蹦 一 
跳 。 ”在 这 个 学 习 过 程 中 ， 小 曙 蚜 们 的 “经 验 ” 包 括 鸭 子 、 金 鱼 、 暑 蟹 和 马 龟 的 话 ， 以 及 “长 得 
像 上 述 四 种 动物 的 都 不 是 妈妈 ”这 样 一 条 隐 含 的 结论 。 最 终 ， 它 们 学 到 的 “知识 ”就 是 “两 只 
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大 眼睛 、 白 肚皮 、 绿 衣裳 、 四 条 腿 ， 一 踢 一 跳 的 就 是 自己 的 妈妈 ”。 当 然 ， 故 事 的 结局 ， 小 量 岂 
们 就 是 靠 着 学 到 的 这 些 知识 成 功 地 找到 了 妈妈 。 反 观 机 器 学 习 ， 由 于 “经 验 ” 在 计算 机 中 主要 
是 以 “数据 ”的 形式 存在 的 ， 所 以 机 器 学 习 需 要 设法 对 数据 进行 分 析 ， 然 后 以 此 为 基础 构建 一 
个 “模型 "这 个 模型 就 是 机 器 最 终 学 到 的 “知识 ”。 可见， 小 出 时 学 习 的 过 程 是 从 “经 验 ”学 
到 “知识 ”的 过 程 。 相 对 应 地 ， 机 器 学 习 的 过 程 则 是 从 “数据 ”学 到 “模型 ”的 过 程 。 正 是 因 
为 机 器 学 习 能 够 从 数据 中 学 到 “模型 ” 而 数据 挖掘 的 目的 恰恰 是 找 出 数据 背后 的 “信息 或 知识 
二 者 不 谋 而 合 ， 所 以 机 器 学 习 才 逐 渐 成 为 数据 挖掘 最 为 重要 的 智能 技术 供应 者 而 备 受 重 视 。 

正如 前 面 所 说 的 ， 机 器 学 习 和 统计 学 为 数据 挖掘 提供 了 数据 分 析 技术 。 而 另 一 方面 ， 统 计 
学 也 是 机 器 学 习 得 以 建立 的 一 个 重要 基础 。 所 以 ， 统 计 学 本 身 就 是 一 种 数据 分 析 技术 的 同时 ， 
它 也 为 以 机 器 学 习 为 主要 手段 的 智能 数据 分 析 提供 了 理论 基础 。 可 见 统计 学 、 机 器 学 习 和 数据 
控 气 之 间 是 紧密 联系 的 。 基 于 这 样 的 认识 ， 我 们 可 以 说 本 书 的 副标题 “机 器 学 习 与 数据 分 析 ” 
主要 包含 了 下 面 几 层 意思 。 首 先 ， 如 果 把 数据 分 析 看 作 狂 义 上 的 以 数理 统计 为 基础 的 统计 分 析 
方法 ， 那 么 本 书 就 涵盖 了 为 数据 挖掘 提供 分 析 技术 的 两 部 分 内 容 ， 即 以 机 器 学 习 为 基础 的 和 以 
统计 学 为 基础 的 数据 分 析 方法 。 其 次 ， 如 果 你 把 数据 分 析 看 作 更 为 宏观 的 包含 了 数据 挖掘 在 内 
的 广义 数据 分 析 技术 ， 那 么 为 了 引入 以 机 器 学 习 为 出 发 点 的 智能 分 析 技术 ， 前 期 的 统计 分 析 知 
识 则 是 帮助 读者 夯实 数据 分 析 基础 的 必要 准备 。 


关于 宁 书 


R 语言 是 当今 最 为 流行 的 统计 分 析 语言 和 数据 分 析 环 境 之 一 。 它 是 属于 GNU 系统 的 一 个 自 
由 、 免 费 、 源 代码 开放 的 软件 ， 并 拥有 媲美 于 商业 软件 的 强大 统计 分 析 和 绘图 功能 。 此 外 ，R 
语言 还 拥有 数 以 万 计 贡献 者 在 为 其 开发 各 种 功能 包 ， 配 合 这 些 包 的 使 用 ，R 的 功能 得 到 了 极 大 
拓展 ， 几 乎 可 以 完成 任何 你 想 要 的 数据 分 析 与 控 气 任务 。 本 书 选择 R 语言 作为 描述 语言 和 开发 
环境 ， 不 仅 通过 诸多 详尽 的 实例 来 演示 R 的 使 用 ， 更 为 那些 新 近 接触 R 语言 的 读者 提供 了 很 好 
的 入 门 指导 。 我 们 相信 ， 无 论 你 属于 何 种 程度 的 R 语言 使 用 者 ， 都 可 以 很 好 地 利用 本 书 来 增进 
数据 分 析 和 挖掘 的 技术 和 能 
经 典 统计 理论 和 机 器 学 习 方法 为 数据 控 气 提供 了 必要 的 分 析 技术 。 本 书 系统 地 介绍 统计 分 
析 和 机 器 学 习 领 域 中 最 为 重要 和 流行 的 多 种 技术 及 其 基本 原理 ， 在 详解 有 关 算法 的 基础 上 ， 结 
合 大 量 R 语言 实例 演示 了 这 些 理论 在 实践 中 的 使 用 方法 。 具 体内 容 被 分 成 三 个 部 分 ， 即 R 语言 
编程 基础 、 基 于 统计 的 数据 分 析 方法 以 及 机 器 学 习 理论 。 统 计 分 析 与 机 器 学 习 部 分 又 具体 介绍 
了 参数 估计 、 假 设 检验 、 极 大 似 然 估 计 、 非 参数 检验 方法 (包括 列 联 分 析 、 符 号 检验 、 符 号 秩 
检验 等 )、 方 差分 析 、 线 性 回归 (包括 岭 回 归 和 Lasso 方法 )、 罗 辑 回 归 、 支 持 向 量 机 、 聚 类 分 
析 (包括 均值 算法 和 EM 算法 ) 和 人 工 神经 网 络 等 内 容 。 同 时 ， 统 计 理论 的 介绍 也 为 深化 读 
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者 对 于 后 续 机 器 学 习 部 分 的 理解 提供 了 很 大 助 益 。 知 识 结 构 和 阅读 进度 的 安排 上 既 兼 顾 了 循序 
渐进 的 学 习 规律 ， 亦 统筹 考虑 了 夯实 基础 的 必要 性 。 尽 管 作 为 一 个 非常 宏大 的 话题 ， 在 有 限 的 
篇 幅 内 我 们 不 能 将 机 器 学 习 的 所 有 方法 尽 述 ， 但 循 着 本 书 所 提供 的 自学 路 线 图 ， 却 可 以 建立 一 
个 十 分 扎实 的 基础 以 及 对 数据 分 析 技 术 相 当 清 晰 的 认识 和 理解 。 

统计 学 大 师 乔 治 。 博 克 斯 曾经 是 统计 学 家 埃 贡 “。 皮 尔 逊 的 学 生 ， 而 埃 贡 。 皮 尔 逊 则 是 统计 
学 之 父 卡 尔 。 皮 尔 逊 的 儿子 。 此 外 ， 乔 治 ， 博克 斯 还 是 统计 学 界 的 另 一 位 巨 壁 罗 纳 德 。 费 希 尔 
的 女 婚 。 从 这 个 角度 来 说 ， 乔 治 。 博克 斯 无 疑 集成 了 两 位 统计 学 宗师 的 学 术 思 想 ， 他 有 一 句 广 
为 人 们 提 及 的 名 言说 道 :“ 所 有 的 模型 都 是 错 的 ， 但 其 中 一 些 是 有 用 的 。” 所 以 ， 无 论 是 基于 统 
计 的 方法 ， 还 是 基于 机 器 学 习 的 方法 ， 最 终 的 模型 都 是 对 现实 世界 的 抽象 ， 而 非 毫 无 偏差 的 精 
准 描述 。 相 关 理 论 只 有 与 具体 分 析 实 例 相 结合 才 有 意义 。 而 在 这 个 所 谓 的 结合 过 程 中 ， 你 既 不 
能 期 待 一 种 模型 (或 者 算法 ) 能 够 解决 所 有 的 (尽管 是 相同 类 型 的 ) 问题 ， 也 不 能 在 面 对 一 组 
数据 时 就 能 (非常 准确 地 〉 预先 知道 哪 种 模型 (或 者 算法 ) 才 是 最 适用 的 。 或 许 你 该 记 住 另 外 
一 句 话 : “No clear reason to prefer one over another. Choice is task dependent (没有 明确 的 原因 表 
明 一 种 方法 胜 于 另外 一 种 方法 ， 选 择 通常 是 依赖 于 具体 任务 的 )”。 这 也 就 突出 了 数据 挖掘 领域 
中 实践 的 重要 性 ， 或 者 说 由 实践 而 来 的 经 验 之 重要 性 。 

为 了 力求 让 读者 “ 知 其 然 ， 更 知 其 所 以 然 ”， 对 于 星 涩 的 数据 挖掘 算法 ， 本 书 都 配合 有 完整 
详尽 的 推导 过 程 。 而 包括 统计 数据 分 析 在 内 的 部 分 ， 我们 更 是 借助 R 语言 的 强大 能 力 ， 抽 丝 剥 
曹 ， 逐 条 演示 了 各 种 检验 方法 、 估 计 方 法 和 分 析 方 法 的 执行 步骤 ， 让 读者 深刻 领悟 到 每 一 条 简 
`“ 单 函数 背后 所 蕴藏 的 复杂 机 制 。 

“ 纸 上 得 来 终 觉 浅 ， 绝 知 此 事 要 躬 行 ”， 深 化 统计 分 析 的 基本 思想 ， 并 锤炼 运用 及 语言 进行 
数据 挖掘 的 能 力 ， 很 大 程度 上 有 赖 于 编程 实践 活动 。 本 书 涉及 的 所 有 源 代 码 ， 读 者 都 可 以 从 在 
线 支持 资源 “http://blog.csdn.net/baimafujinji” 中 下 载 得 到 ， 勘 误 表 也 将 实时 发 布 到 此 博客 上 。 
同时 欢迎 读者 就 本 书 中 的 问题 和 不 足 与 笔者 展开 讨论 ， 有 关 问 题 请 在 上 述 博客 中 留言 。 

本 书 由 左 飞 统 稿 并 执笔 。 此 外 刘 航 、 吴 凯 、 姜 萌 、 何 鹏 、 胡 俊 、 李 召 恒 、 初 甲 林 、 薛 佟 佟 
等 人 也 参与 了 本 书 编写 工作 ， 笔 者 在 此 表示 由 衷 的 感谢 。 


自 知 论 道 须 思量 ， 几 度 无 眠 一 文章 。 由 于 时 间 和 能 力 有 限 ， 书 中 丝 漏 在 所 难免 ， 真 诚 地 希 
望 各 位 读者 和 专家 不 音 批评 、 郑 正 。 
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第 人 章 


初 识 R 语言 





欢迎 学 习 R 语言 ! 作为 当今 最 流行 的 统计 分 析 语 言 之 一 ，R 语言 在 科学 研究 、 生 物 医 药 、 
市 场 营销 、 经 济 分 析 等 涉及 数据 统计 的 领域 都 有 非常 广泛 而 重要 的 应 用 。 本 章 是 全 书 的 导 引 部 
分 ， 它 将 帮助 大 家 建立 对 及 语言 的 初步 认识 ， 并 通过 一 些 简单 的 例子 使 读者 熟悉 R 语言 开发 环 
境 。 


1.1 民 语 言 简 介 


说 到 R 的 起 源 ， 便 不 得 不 提 及 上 世纪 80 年 代 诞生 于 贝尔 实验 室 的 $ 语言 。 彼 时 正 专注 于 
现代 统计 模型 和 数据 分 析 方 法 研究 的 三 位 科学 家 一 一 约翰 。 钱 伯 斯 (John Chambers)、 瑞 克 。 柏 
克 (Rick Becker) 以 及 后 来 加 入 的 艾 兰 。 威 克 斯 (Allan Wilks) 成 功 地 开发 了 一 种 用 来 进行 数 
据 处 理 、 统 计 分 析 和 作 图 的 解释 型 语言 ， 也 就 是 S 语言 。 而 曾 与 他 们 三 位 共事 过 的 华盛顿 大 学 
统计 学 教授 道格拉斯 " 马丁 (Douglas Martin) 开发 了 一 个 S 语言 的 实现 版 本 ， 也 就 是 S-PLUS 
的 最 初版 本 。 


马丁 很 快 发 现 了 S 的 潜在 商业 价值 ， 但 是 贝尔 实验 室 当时 却 没有 将 S 语言 商业 化 的 设想 。 
于 是 马丁 便 创立 了 Statistical Sciences 公司 , 以 S-PLUS 的 形式 将 S 语言 推 向 市 场 。 所 以 ,S-PLUS 
其 实 就 是 基于 SS 语言 的 一 款 商 业 软 件 , 后 来 在 1993 年 ,马丁 将 Statistical Sciences 卖 给 了 MathSoft 
公司 ,而 S-PLUS 在 MathSoft 公司 也 得 到 了 长 足 的 发 展 并 在 商业 上 取得 了 成 功 .2001 年 ,MathSoft 
公司 更 名 为 Insightful， 并 将 公司 总 部 迁 往 西雅图 。2008 年 ，TIBCO 公司 成 功 将 Insightful 公司 
收购 。 

S 语言 的 另外 一 种 实现 版 本 就 是 本 书 要 介绍 的 R。R 最 初 是 由 新 西 兰 奥克兰 大 学 的 罗斯 。 艾 
卡 (Ross Ihaka) 和 罗伯特 。 杰 特 曼 (Robert Gentleman ) 两 位 教授 实现 的 ， 现 在 由 “R 开发 核 
心 团队 ”负责 开发 以 及 维护 。 现 在 R 是 属于 GNU 系统 的 一 个 自由 、 免 费 、 开 源 的 软件 。R 可 
以 被 认为 是 当前 最 为 流行 的 一 种 用 于 数据 分 析 和 统计 制图 的 语言 及 操作 环境 .所 以 当 提 到 R 时 ， 
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既是 指 一 种 计算 机 语言 也 是 指 一 种 软件 环境 。 本 书后 面 主要 使 用 R 这 个 称谓 ， 有 时 也 会 使 用 R 
软件 、R 语言 或 R 系统 来 称呼 它 。 读 者 应 该 明白 尽管 这 些 称谓 各 异 ， 但 是 它们 所 指 代 的 事物 其 
实 是 统一 的 。 

当前 数据 分 析 已 经 成 为 非常 热门 的 话题 ， 各 行 各 业 每 天 都 在 进行 着 数据 分 析 活动 。 而 可 以 
用 于 数据 分 析 的 软件 也 是 林林总总 ， 例 如 我 们 所 熟知 的 MATLAB、Excel、SPSS、SAS、Stata、 
EViews 和 S-PLUS 等 。 那 么 为 什么 选择 R 呢 ? 总 的 来 说 ，R 具有 如 下 一 些 主 要 特点 : 


。R 是 一 个 完全 免费 的 自由 软件 。 尽 管 S-PLUS 也 是 一 款 非 常 优秀 的 统计 分 析 软 件 ， 但 使 
用 它 需 要 支付 一 笔 费用 ， 而 R 则 是 一 个 免费 的 统计 分 析 软 件 。 

R 支持 多 种 操作 系统 。 它 有 UNIX、Mac OS 和 Windows 等 多 个 版 本 ， 都 是 可 以 免费 下 
载 和 使 用 的 。 它 们 的 安装 文件 以 及 安装 说 明 可 以 通过 CRAN 获得 。 

R 是 开放 源 代码 的 。 它 的 源 代码 可 自由 下 载 使 用 ， 因 此 它 有 来 自 全 球 的 热心 用 户 为 其 编 
写 软件 包 。 借 由 这 些 软 件 包 ，R 的 功能 被 极 大 地 扩展 ， 针 对 某 些 具体 领域 的 统计 分 析 功 
能 被 不 断 完 善 和 加 强 。 例 如 像 经 济 计 量 、 财 经 分 析 功 能 等 就 是 通过 扩展 包 实 现 的 。 

R 具有 突出 的 统计 分 析 能 力 。R 内 艇 了 许多 实用 的 统计 分 析 功 能 ， 统 计 分 析 的 结果 也 能 
被 直接 显示 出 来 ， 一 些 中间 结 果 既 可 保存 到 专门 的 文件 中 ， 也 可 以 直接 用 于 进一步 的 
分 析 。R 的 功能 也 可 以 通过 安装 包 来 增强 。 

R 拥有 强大 的 绘图 功能 。 数 据 分 析 结果 可 以 通过 专业 的 统计 图 形 来 呈现 。 内 获 的 作 图 函 
数 能 将 产生 的 图 片 展 示 在 一 个 独立 的 窗口 中 , 并 能 将 之 保存 为 各 种 形式 的 文件 。 如 图 1-1 
所 示 就 为 利用 R 绘制 的 统计 图 形 。 
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图 1-1 用 R 绘制 的 统计 图 形 
R 是 面向 对 象 的 编程 语言 。R 比 其 他 统计 学 或 数学 专用 的 编程 语言 有 更 强 的 面向 对 象 功 
能 ， 它 提供 了 包括 继承 、 多 态 和 封装 等 在 内 的 面向 对 象 特性 。 
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。 R 是 一 种 解释 性 语言 。 因 为 R 是 一 种 解释 性 语言 〈 而 不 是 编译 语言 )， 也 就 意味 着 输入 
的 命令 能 够 直接 被 执行 ， 而 无 须 像 其 他 语言 那样 需要 编译 和 连接 等 操作 。 


1.2 ”安装 与 运行 


读者 可 以 在 CRAN 社区 网 站 “http://cran.r-project.org” 上 和 免费 下 载 最 新 版 本 的 封装 好 的 R 
安装 程序 到 本 地 计算 机 。 正 如 前 面 所 讲 的 ，CRAN 网 站 上 提供 了 可 在 UNIX、Mac OS X 和 
Windows 等 不 同 平台 下 运行 的 R 版 本 。 读 者 可 根据 自己 所 使 用 的 平台 来 选择 不 同 的 安装 程序 。 
本 书 以 在 Windows 平台 下 运行 的 版 本 为 例 进行 介绍 。 























运行 可 执行 的 安装 文件 ， 选 择 默 认 或 自 定义 的 安装 目录 进行 安装 。 读 者 也 可 以 在 安装 过 程 
中 选择 程序 界面 所 采用 的 基本 语言 。 安 装 完成 后 单 击 桌面 上 的 R 程序 图 标 就 可 启动 R 的 交互 式 
用 户 窗口 ， 如 图 1-2 所 示 。 




















RGui (32-bit) 
Rile Edit View Misce Packagez Mindons Help 


Rc ol 


R version 3.1.2 {2014~10-31) -~ "PumpXkin Helmer" 
Copyright {Cc) 2014 The FR Foundarcion for Sratigticatl Computirngy 
Platform: L1306-064-mingwiS/ i166 (93%-Dit) 


R is free software nd comes vith ABSOLUTELY NO WARRANTY. 
You are welcome vo redistribure it under certain conditions, 
Type ‘licenset}' or ‘licence(}' for distribution devails. 


Ris a collaborative project vith many contributors, 
Type ‘contributors{}' for more information gnd 
‘citationt)' on how to cwite R or RR packages in publicationsg. 


Type ‘dewot{)' tor some demos, ‘helpyt)' for on-line help, or 
‘heip.start()! tor an HTHNL browser intverface to help. 
Type qf}j' to quir RB, 








图 1-2 R 的 图 形 用 户 界 本 











工作 目录 是 R 读 写 文件 的 默认 位 置 。 如 果 我 们 想 从 不 同 的 路 径 进 行 读 写 操作 ， 那 么 必须 显 
式 地 告知 程序 。 为 一 个 新 的 工作 项 目 设 定 一 个 单独 的 文件 夹 以 存放 所 需 的 数据 及 编码 文件 是 一 
个 明智 的 选择 。 用 户 可 以 在 命令 行 模式 下 使 用 getwd0 函 数 来 获取 当前 工作 目录 的 信息 。 例 如 ; 
> getwd() ， 
机 esyMY Documentern 


函数 setwd0 用 以 设 定 新 的 工作 目录 , 此 时 该 函数 需要 一 个 参数 来 指定 新 的 工作 路 径 。 例如 : 
> setwd("d:/Chapter01l") 
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需要 说 明 的 是 括号 中 的 参数 所 指定 的 路 径 必须 是 已 经 存在 的 。 换 句 话 说 ， 该 命令 并 不 会 为 用 户 
重新 创建 文件 夹 。 另 外 ， 函 数 setwd0) 的 功能 也 可 以 通过 单 击 “File” 菜 单 中 的 “Change dir” 项 
目 来 实现 。 

当 要 退出 R 时 ， 可 在 命令 行 输入 q0 或 者 在 “File” 荣 单 中 选择 “Exit” 项 来 结束 程序 。 此 
时 ， 程 序 会 提醒 用 户 是 否 选择 保存 工作 空间 。 对 于 已 经 保存 的 工作 空间 ， 用 户 下 次 使 用 R 时 ， 
可 以 通过 输入 命令 load0 或 在 “File” 菜 单 中 选择 “Load Workspace” 来 加 载 ， 进 而 继续 以 往 的 
Es 

除了 在 R 的 默认 开发 环境 中 编写 代码 以 外 ,我 们 也 可 以 在 R 的 集成 开发 环境 (IDE, Integrated 
Development Environment) 中 进行 R 程序 编码 。RStudio 是 一 款 功能 强劲 而 且 免 费 的 R 语言 
成 开发 环境 .RStudio 提供 了 包括 语法 着 色 等 在 内 的 诸多 实用 功能 , 而 且 它 还 支持 包括 Windows、 
Linux 和 Mac OS 等 在 内 的 诸多 操作 系统 。 如 图 1-3 所 示 ， 读 者 可 以 访问 RStudio 的 项 目 主页 
www.rstudio.com 来 获取 它 的 安装 包 。 软件 的 安装 过 程 也 相当 智能 化 , 包括 选择 安装 路 径 等 步骤 ， 
这 里 不 再 歼 言 。 


| Lu 
wd 


RE 韶 训 Js/mmrrd 


个 Studi BT Resn ts TH AECUTUS Sog 站 











pomwwerful IDE for R R patkages Bring R to the web 





图 1-3 RStudio 项 目 主 页 


安装 成 功 后 ， 运 行 RStudio 程序 ， 其 界面 如 图 1-4 所 示 。 我 们 一 方面 可 以 使 用 其 中 的 控制 
台 来 逐条 执行 R 语言 ， 另 一 方面 也 可 以 编辑 完整 的 R 语言 脚本 。RStudio 会 将 执行 过 的 命令 记 
录 下 来 , 用 户 亦 可 直观 地 检视 到 系统 中 已 经 存在 的 数据 或 变量 , 这 一 点 与 MATLAB 非常 相像 。 
由 于 RStudio 的 使 用 非常 简单 ， 本 书后 面 不 打算 对 此 做 过 多 介绍 ， 读 者 可 自由 选择 开发 环境 来 
执行 本 书 中 所 涉及 之 代码 ， 这 并 不 会 导致 执行 结果 上 的 差异 。 
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5 » 由 zoom 可 Ep oO ¥ 写 

6 < i. 

8 seq( 10, 10, length- 30) | 
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由 
35qrYCxc2yY'213 卫生 








10 functionix, y ! 
过 Dute y, Ff | 
12 1s.naiz } | 
paribg ~ “white" 到 1 
1s shix, y, z. thera + 30, phi ~ 30, expand 旨 | 
15 spix, Yy, Z, thera ~ 30, phi = 30, expand § | 
16 Trhera ~ 120, shade » 0.75, ticktype 看 上 

全 取 2 x tab yt “~, zlab » “sinct 中 
i 38 res | 
19 roundtres, 3 放 天 | 

4 a » 

= 一 < 一 一 一 一 一 一 了 = = | 
| 4 Nmned 5 RScopt 7 | | 
本 re A | 
Comote 王 名 | 
By [2 £33 【4 | 
{1,] 0.087 -9.025 0.043 -0.043 ! 
{2.] 0.050 0.043 -0.075 0.075 | 
[3,] 0.000 0.074 0.042 -0.04 | 
{#,] 0.000 -0.273 -2.890 3. | 
| 








图 1-4 RStudio 开发 环境 





1.3 ”开始 使 用 R 


R 的 使 用 其 实 和 MATLAB 有 很 多 相似 之 处 。 如 果 R 已 经 安装 在 你 的 计算 机 中 ， 它 就 能 立 
即 运行 一 些 可 执行 的 命令 。 从 这 个 角度 来 说 R 的 语法 是 非常 简单 和 直观 的 。R 默认 的 命令 提示 
符 是 “>”， 它 表示 正在 等 待 输入 命令 。 如 果 一 个 语句 在 一 行 中 输 不 完 ， 按 回 车 键 ， 系 统 会 自动 
产生 一 个 续 行 符 “+”， 语 句 或 命令 输 完 后 系统 又 会 回 到 命令 提示 符 。 在 同一 行 中 输入 多 个 命令 
语句 ， 则 须 使 用 分 号 来 作为 间隔 。 当 我 们 在 命令 提示 符 后 面 直接 输入 一 个 算式 并 按 下 “Enter” 
键 时 ，R 就 会 直接 给 出 答案 。 此 时 R 就 相当 于 一 个 计算 器 。 例 如 ， 下 面 的 例子 说 明了 R 中 的 算 
术 运 算 符 (加 、 减 、 乘 、 除 、 开 方 、 指 数 〉 的 使 用 方法 。 
> (5+6)%10100) /2 
Fl 
Sart (5) 
【二 中 -过 


> exPp(I) 
[1] 2.718282 


其 中 ， 函 数 exp() 用 来 计算 以 自然 常数 e 为 底 的 指数 函数 值 。 而 且 也 可 以 看 出 合法 的 R 函数 总 是 

带 有 圆 括号 的 形式 ， 即 使 括号 内 没有 内 容 。 如 果 直 接 输入 函数 名 而 不 输入 圆 括号 ， 那 么 R 则 会 

自动 显示 该 函数 的 一 些 具体 信息 ,因此 在 R 中 所 有 的 函数 后 都 带 有 圆 括号 以 区 别 于 对 象 有 时 ， 

运行 一 个 R 函数 可 能 不 需要 设 定 任 何 参数 ， 原 因 是 所 有 的 参数 都 可 以 被 默认 为 缺 省 值 ， 当 然 也 
有 可 能 该 函数 本 身 就 不 含 任何 参数 ， 例 如 前 面 用 过 的 getwd()。 

当 有 运行 时 ， 所 有 变量 、 数 据 、 函 数 及 结果 都 以 对 象 的 形式 存 入 计算 机 内 存 中 ， 并 以 相应 
wwaibbt.com DODDODDDD 








Em 


的 名 字 标 识 来 加 以 区 别 。 对 象 的 名 字 必 须 以 字母 开头 ， 中 间 可 以 包含 字母 、 数 字 、 点 “.” 及 下 
画 线 “_”, 而且 因为 R 对 对 象 的 名 字 区 分 大 小 写 , 所 以 a 和 A 所 表示 的 就 是 两 个 完全 不 同 的 对 象 。 
在 R 中 的 所 有 操作 都 是 针对 存储 在 内 存 中 的 对 象 进行 的 。 用 户 可 以 通过 一 些 运算 符 或 一 些 函数 
(函数 本 身 亦 是 对 象 ) 来 对 这 些 对 象 进 行 操作 。 例 如 ， 可 以 创建 一 个 (几乎 所 有 编程 书籍 都 会 用 
来 作为 开篇 的 )“Hello World” 程 序 : 

> hworld ze, Functiomt) 1 

+ cat("Hello Worilad!\n") 

| 

函数 也 是 对 象 ， 而 “hi.world” 就 是 我 们 创建 的 函数 对 象 的 名 字 《〈 对 象 名 以 字母 开头 ， 其 后 可 以 
包含 点 “.”)，function() 的 作用 是 告诉 R 我 们 创建 了 一 个 函数 ， 符 号 “<-” 是 赋值 运算 符 ( 后 
面 我 们 马上 就 会 讲 到 )。 运 行 上 述 函 数 ， 其 结果 如 下 : 

> ni. Wortd(y) 

Hello World! 

所 有 能 使 用 的 R 函数 都 被 包含 在 一 个 库 〈library) 中 ， 该 库存 放 在 R 安装 文件 夹 的 library 
目录 下 。 这 个 目录 下 含有 具有 各 种 功能 的 包 〈package)， 各 个 包 也 是 按照 目录 的 方式 组 织 起 来 
的 。 例 如 , 在 library 目录 下 可 以 看 到 一 个 名 为 base 的 文件 夹 ， 这 个 文件 夹 就 是 base 包 , 它 是 R 
的 核心 ,因为 其 中 内 舱 了 R 语言 中 所 有 像 数据 读 写 与 操作 这 些 最 基本 的 函数 。 在 library 目录 下 
的 每 个 子 文件 夹 ( 即 每 个 包 ) 内 ， 都 有 一 个 子 目录 R， 这 个 目录 里 又 都 含有 一 个 与 此 包 同 名 的 
文件 ， 这 个 文件 就 是 存放 该 包 内 所 有 函数 的 地 方 。 用 户 还 可 以 通过 自 定义 安装 各 种 功能 包 的 方 
式 来 扩展 R 的 功能 ， 有 具体 方法 本 章 后 面 将 会 详细 介绍 。 


一 个 对 象 可 以 通过 赋值 操作 来 产生 ，R 语言 中 的 赋值 符号 一 般 为 一 个 尖 括 号 与 一 个 减 号 组 
成 的 箭头 形 标志 ， 该 符号 可 以 是 从 左 到 右 的 方向 ， 也 可 以 相反 。 在 R 语言 中 ， 可 以 通过 输入 一 
个 对 象 的 名 字 来 显示 该 对 象 的 内 容 ， 亦 可 以 使 用 函数 print( ) 来 完成 类 似 功 能 ， 例 如 : 
> Rn 0 
全 | 区 
aim ee 
> 0 2 ssi 
» Print (ny 
Ft 


其 中 ， 方 括号 中 的 数字 1 表示 从 n 的 第 一 个 元 素 开 始 显示 。 
此 外 , R 中 的 赋值 也 可 以 用 函数 assign() 实 现 或 者 等 号 “=” 来 实现 , 但 这 种 用 法 并 不 常见 。 
例如 : 


> assign("n", 10) 
> 
To 
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关于 其 他 更 为 常用 的 对 象 ( 向 量 、 和 矩阵 、 数 组 等 的 赋值 与 运算 ， 本 书 将 在 后 续 章节 中 进 

















如 同 其 他 计算 机 语言 一 样 ，R 中 也 可 以 使 用 注释 语句 。R 中 使 用 “#” 来 表示 注释 的 开始 ， 
而 在 “#” 之 后 出 现 的 任何 文本 都 会 被 R 解释 器 忽略 。 例 如 ， 


>.getwal) # Prints the working (Qirectory 
> setwd("C:/Temp™") # Set "C/Temp" to be the working directory 


1.4 包 的 使 用 


由 于 R 是 开源 的 ， 因 此 ， 它 为 用 户 根 据 自 己 的 需求 自 定义 地 对 系统 本 身 进行 功能 扩展 提供 
了 可 能 。 当 某 些 用 户 为 了 实现 某 些 特殊 功能 而 自行 编写 了 一 个 功能 模块 时 ， 他 可 以 在 对 该 功能 
模块 进行 封装 后 发 布 ， 这 些 所 谓 的 功能 模块 就 是 包 。 包 是 R 函数 、 数 据 、 预 编译 代码 以 一 种 定 、 
义 完善 的 格式 组 成 的 集合 。 全 球 范围 内 为 数 众多 的 富有 热情 的 贡献 者 无 私 地 将 他 们 的 劳动 成 果 
发 布 到 网 络 上 与 他 人 共享 ， 这 既是 开源 的 精神 所 在 ， 亦 成 为 R 中 最 激动 人 心 的 一 部 分 功能 。 这 
些 功 能 包 提 供 了 横 跨 各 种 领域 、 数 量 惊人 的 新 功能 ， 包 括 分 析 地 理 数 据 、 处 理 蛋 白质 质谱 、 经 
济 计量 方法 ， 甚 至 是 心理 测验 等 功能 。R 中 所 有 的 包 都 可 以 从 CRAN 网 站 上 下 载 得 到 。 
在 初次 安装 完成 R 时， 系统 中 已 经 默认 加 载 了 一 些 包 《 例 如 前 面 提 过 的 base 包 等 )， 它 们 
提供 了 种 类 繁多 的 默认 函数 和 数据 集 。 其 他 提供 特殊 功能 的 包 则 需要 用 户 自行 下 载 并 安装 。R 
中 提供 了 许多 函数 用 来 帮助 用 户 管理 包 。 其 中 ， 函 数 install.packages() 可 以 用 来 完成 包 的 安装 。 
不 使 用 参数 的 情况 下 ， 在 R 命令 行 中 输入 此 函数 后 ， 系 统 将 显示 一 个 CRAN 镜像 站 点 的 列表 ， 
选中 一 个 镜像 站 点 后 ,将 看 到 所 有 可 用 包 的 列表 , 再 从 中 选择 一 个 包 即 可 进行 下 载 并 自动 安装 。 
如 果 用 户 已 经 知道 欲 安装 的 包 名 ， 则 可 以 直接 将 包 名 作为 参数 提供 给 这 个 函数 。 一 个 包 仅 须 安 
装 一 次 。 但 和 其 他 软件 类 似 ， 包 经 常 被 其 作者 更 新 。 使 用 命令 update.packages() 可 以 更 新 已 经 安 
装 的 包 。 要 查看 已 安装 包 的 描述 ， 可 以 使 用 installed.packages() 命 令 ， 这 将 列 出 安装 的 包 ， 以 及 
它们 的 版 本 号 、 依 赖 关 系 等 信息 。 上 述 命令 行 函数 的 功能 亦 可 通过 点 选 “Packages” 菜 单 下 面 
的 项 目 来 实现 ， 如 图 1-5 所 示 。 
包 安 装 好 后 ,它们 必须 被 加 载 到 会 话 中 才能 使 用 。 函 数 search() 可 以 用 来 显示 哪些 包 已 加 载 
并 可 使 用 。 我 们 还 可 以 使 用 library0 函 数 在 会 话 中 加 载 指 定 的 包 , 该 函数 的 参数 是 要 载 入 的 包 的 
名 称 。 例 如 ， 假 设 已 经 安装 了 用 于 经 济 计量 分 析 的 AER 包 ， 则 可 通过 下 列 语句 将 其 载 入 : 


> library (ABR) 
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图 1-5 在 图 形 界 面 上 操作 包 


当然 ， 在 加 载 一 个 包 前 必须 已 经 安装 了 这 个 包 。 在 一 个 会 话 中 ， 包 只 须 载 入 一 次 。 如 果 需 要 ， 
也 可 自 定义 启动 环境 以 自动 载 入 会 频繁 使 用 的 那些 包 。 

载 入 一 个 包 之 后 ， 就 可 以 使 用 一 系列 新 的 函数 和 数据 集 了 。 通 常 ， 包 中 往往 提供 了 演示 性 
的 小 型 数据 集 和 示例 代码 ， 它 们 可 以 帮助 用 户 快速 熟悉 包 中 所 提供 的 新 功能 。 此 外 ， 命 令 
help(package="package_name") 可 以 输出 某 个 包 的 简短 描述 以 及 包 中 的 函数 名 称 和 数据 集 名 称 的 
列表 。 使 用 函数 help() 可 以 查看 其 中 任意 函数 或 数据 集 的 更 多 细节 。 这 些 信 息 也 能 以 PDF 帮助 
手册 的 形式 从 CRAN 网 站 上 下 载 得 到 。 


.1.5 “使 用 帮助 


学 习 一 门 编程 语言 不 仅 要 掌握 其 语法 规则 ， 还 要 熟练 使 用 系统 库 中 提供 的 常用 函数 。R 的 
程序 包 中 含有 大 量 进 行 统计 分 析 的 函数 ， 如 若 可 以 熟练 掌握 这 些 函 数 的 意义 和 使 用 方法 ， 势 必 
会 使 用 户 在 利用 R 进行 数据 分 析 时 得 心 应 手 、 事 半 功 倍 。 现 在 有 很 多 资源 可 以 帮助 读者 更 好 地 
使 用 R， 这 其 中 不 乏 系统 自身 提供 的 一 些 工 具 ， 当 然 也 包括 浩如烟海 的 网 络 资源 。 幸 运 的 是 ，R 
的 开发 者 们 在 R 帮助 文档 自动 化 方面 已 经 做 了 大 量 工作 , 本 节 就 向 读者 介绍 如 何 使 用 R 的 帮助 
系统 。 

使 用 help(0) 函 数 无 疑 是 在 R 中 获取 帮助 资源 的 最 常用 方法 。 要 获取 一 个 函数 的 信息 ， 则 直 
接 将 函数 对 象 名 作为 help() 函 数 参 数 即 可 ， 例 如 : 
> help (exp) 

另外 调用 help0) 函 数 的 一 种 快捷 方式 是 使 用 问号 “?”， 例如 : 
> 2exp 

在 使 用 help(0) 函 数 时 ,特殊 字符 和 一 些 保留 字符 则 必须 用 括号 括 起 来 以 同 对 象 名 进行 区 别 。 
例如 要 查看 关于 for 循环 的 一 些 介绍 ， 需 要 输入 : 
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> helpt(t"Eor™) 

执行 上 述 函 数 时 读者 会 发 现 系统 返回 的 是 一 个 弹 开 的 网 页 文档 。 而 且 在 查阅 由 上 述 操作 获 
取 的 网 页 信息 时 ， 读 者 一 定 会 注意 到 每 个 条 目 中 都 附带 有 一 些 例子 。 如 果 你 想 直接 查看 这 些 示 
例 代 码 ， 则 可 以 使 用 example() 函 数 ， 例 如 : 
> example (exp) 

如 果 你 甚至 还 不 太 清楚 要 查询 的 内 容 是 什么 , 例如 你 只 是 想 知道 R 中 是 否 提供 关于 Poisson 
分 布 的 函数 ， 那 么 可 以 使 用 下 面 的 方法 : 
> help.search ("poisson") 

函数 help.search() 的 作用 是 在 R 的 文档 中 进行 类 似 关键 词 搜 索 的 功能 。 此 外 ，help.search() 
还 有 一 个 快捷 方式 ， 即 使 用 符号 “2?”， 例 如 : 
> ?2"poisson" 

R 的 帮助 文档 不 仅 局 限于 具体 的 函数 信息 。 在 安装 了 一 个 新 的 包 之 后 ， 为 了 熟悉 这 个 包 的 
使 用 , 也 可 通过 命令 行 操 作 来 获取 这 个 包 的 帮助 信息 。 例 如 在 1.4 节 中 , 我 们 安装 并 载 入 了 AER 
包 ， 则 可 以 使 用 下 面 的 语句 来 获取 关于 该 包 的 帮助 信息 : 
> help (package=AER) 

此 外 ， 你 还 可 以 通过 help0 函 数 获取 更 为 一 般 的 帮助 主题 。 例 如 ， 假 设 你 想 了 解 R 中 关于 
文件 操作 方面 的 知识 ， 就 可 以 输入 系列 语句 : 
> help (files) 

本 书后 面 还 会 介绍 很 多 关于 R 的 话题 ， 如 果 你 对 其 中 某 个 话题 感 兴趣 ， 也 不 妨 试 试 利用 上 
述 方法 查询 一 下 R 的 帮助 文档 中 给 出 的 关于 该 话题 的 具体 内 容 。 显 然 ， 有 的 放 矢 地 进行 帮助 信 
息 查 询 才 是 更 为 明知 的 选择 。 
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R 是 用 以 进行 数据 分 析 的 语言 。 数 据 就 是 有 待 后 续 加 工 的 原材料 。 所 以 ， 正 确认 识 R 中 的 
数据 是 非常 有 必要 的 。 与 其 他 编程 语言 《例如 C 语言 )》 有 很 大 不 同 的 是 ，R 中 是 没有 严格 意义 
上 的 原子 型 数据 的 ，R 中 所 有 的 数据 都 是 以 结构 型 数据 的 形式 存在 的 。 这 里 所 说 的 原子 型 数据 
就 是 指 单个 的 数值 ， 在 R 中 所 有 单个 的 数值 都 是 以 结构 化 数据 的 一 种 特例 的 形式 存在 的 。 


2.1 向 量 的 创建 


向 量 (vector) 是 R 语言 中 最 基本 的 数据 类 型 。 向 量 是 由 众多 个 体 元 素 有 序 组 织 而 成 的 数 
据 集 合 ， 同 一 向 量 中 的 所 有 元 素 必须 是 相同 模式 的 。R 中 的 模式 主要 有 四 种 ， 即 数值 型 〈 包 括 
整 型 和 双 精 度 实 数 型 两 种 )、 字 符 型 、 轴 辑 型 和 复数 型 等 。 若 要 在 程序 中 查看 某 个 变量 的 模式 ， 
则 可 以 通过 调用 函数 mode() 来 完成 。 例 如 : 
> Value <=/9997 ,string < "Languagel RR" 
> indicator <- FALSE; complex num <- 1+1i 
> mode (value); mode(string); mode (indicator); mode (complex num) 

[1] “numeric" 
[1] "character" 
TE oleae 
[1] "complex" 

R 语言 中 的 模式 也 有 点 类 似 于 其 他 语言 中 的 数据 类 型 ， 但 是 可 以 看 到 的 是 R 语言 对 模式 又 
进行 了 划分 ， 因 为 数值 型 的 模式 被 分 成 了 整 型 和 双 精 度 实数 型 两 种 。 划 分 到 这 一 层 后 看 起 来 就 
更 像 其 他 计算 机 语言 中 的 数据 类 型 了 ， 这 时 可 以 使 用 函数 typeof0 来 查看 数据 的 类 型 。 例 如 
> 二 
”typeorf (ny 
[ly "donble" 

a ed 
> typeof (n) 
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[1] “integer" 


读者 可 以 自行 用 typeofl) 函 数 测试 前 面 例子 中 给 出 的 字符 型 、 逻 辑 型 和 复数 型 的 数据 ， 所 得 
结果 与 mode() 函 数 无 异 。 所 以 ，typeof() 函 数 也 仅仅 只 有 用 在 数值 型 模式 的 数据 上 时 才 会 看 到 与 
mode() 函 数 的 区 别 。 男 外 ， 在 R 中 数值 型 的 数据 默认 都 是 双 精 度 实数 型 的 ， 若 是 要 限定 为 整 型 
数据 ， 则 需要 在 赋值 时 用 字母 “L” 来 显 式 地 表示 。 


无 论 什 么 类 型 的 数据 ， 缺 失 数据 总 是 用 NA (Not Available 的 意思 ) 来 表示 《〈 后 面 在 创建 空 
矩阵 的 时 候 就 会 遇 到 )， 对 很 大 的 数值 则 可 用 科学 计数 法 的 形式 来 表示 。 例 如 ; 


> ignt Speed < 一 3.0e8 
> light speed 
[1] 3e+08 


R 中 使 用 Inf 和 -Inf 来 表示 数学 上 正 负 无穷 [c 和 -oo ) 的 概念 , 还 可 以 用 NaNCNota Number 
的 意思 ) 来 表示 不 是 数字 的 值 。 例 如 : 


> 5/0 

[1] Inf 

> log(0) 

fi DE 

> 0/0 

[1] NaN 

>»Sqrt (=2) 

[1] NaN 

Warning message: 

1n sqrtrc2 ; NaNs. produced 
> sqrt(-2+01) # 按照 复数 进行 运算 
[1] 0+1.4142141 


字符 型 的 值 输入 时 须 加 上 双 引 号 (也 可 以 使 用 单 引号 )， 后 面 我 们 还 会 用 到 ， 此 处 不 再 给 出 
例子 。 


统计 分 析 中 最 为 常用 的 是 数值 型 的 向 量 , 在 此 我 们 就 以 数值 型 向 量 为 例 来 介绍 向 量 的 使 用 。 
向 量 的 最 简单 生成 方式 为 : 


> | 
te 
> 10:1 

i We We :Si ee Me 

> 1:10-1 

Pa m0 hn a DAS Ga GY 

> z <- 1: (10-1) # 请 注意 有 无 括号 的 区 别 
> 

pe Ae ya 
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其 中 , 运算 符 “:” 在 创建 向 量 时 是 非常 有 用 的 , 它 用 以 生成 指定 范围 内 数值 构成 的 向 量 。 另外 ， 
还 要 注意 运算 符 的 优先 级 。 在 表达 式 1:10-1 中 ， 冒 号 的 优先 级 高 于 减 号 ， 因 此 要 先 计 算 1:10， 
然后 得 到 的 向 量 中 的 每 个 元 素 再 减 1。 这 还 涉及 一 个 循环 补 齐 的 问题 ， 稍 后 我 们 还 会 介绍 。 在 
表达 式 1:(10-D 中 ， 括 号 的 优先 级 又 高 于 减 号 。 也 就 是 先 计 算 10-1， 得 到 9 之 后 ， 再 计算 1:9， 
所 以 才 得 到 上 面 最 后 给 出 的 结 

向 量 还 可 以 由 下 面 的 三 种 函数 建立 : 

® seq() # 若 向 量 (序列 ) 具有 较为 简单 的 规 得 

® rep() # 若 向 量 (序列 ) 具有 较为 复杂 的 规律 
































tt 














e cl() # 若 向 量 (序列 ) 没有 什么 规律 

我 们 给 出 一 些 向 量 赋值 的 例子 ， 请 读者 体会 不 同方 法 之 间 的 区 别 : 
wk Soall, 5, Gy-0. 5) 4 各 价 于 Seml(From-i, to=bys bysou5) 
wr 


Ti] 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 
> 2z sr segq(l0,100,1ength=10) 


[IIi0 20 so 40 50 60 "0 '80 80 100 
> 7 <r repll:5,2) # 等 价 于 cep(1:5,， times=?) 


Tl 2 3 5 Lt 
> repl(l.4, each = 2, times = 3) 

Wil TT 239344 1 11223 33441 T2283 34 4 

> repl(l;4, each ~ 2, Jen = 4) # 因 为 长 度 是 4， 所 以 仅 取 前 4 项 


3 4 





Til 1 2 2 
> < 3 1/,. I9) 
> 


Li] 111 0 1 19 
因为 R 语言 里 向 量 中 的 元 素 是 连续 存储 的 ，R 中 也 没有 类 似 C 语言 中 指针 的 概念 ， 所 以 不 
能 随意 插入 或 者 删除 其 中 的 元 素 。 而 且 向 量 的 大 小 在 创建 时 已 经 确定 ， 因 此 要 想 添加 或 删除 元 
素 ， 便 需要 重新 给 向 量 赋值 。 例 如 ， 请 读者 观察 下 面 这 段 示例 代码 : 
SI etll 13, 19, (23) 
> zz <- (2z211:2],17,213;4]) 
六 2 
Th 1 3 9 23 


尽管 上 述 代码 的 确实 现 了 向 既 有 向 量 中 插入 元 素 的 作用 ， 但 读者 也 应 该 认识 到 为 了 实现 这 个 目 
的 ， 我 们 其 实 是 对 原 向 量 进行 了 重新 赋值 。 
可 以 使 用 函数 length(0) 来 获得 向 量 的 长 度 。 例 如 ; 
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3 
> length (2z) 
Lda 

当 我 们 创建 一 个 向 量 时 ， 其 实 我 们 就 已 经 获知 了 它 的 长 度 ， 这 就 导致 上 述 获取 向 量 长 度 的 
操作 看 似 并 不 有 具有 太 大 意义 。 但 在 实际 编程 中 ， 向 函数 传递 参数 有 时 就 需要 预先 知道 向 量 参数 
的 长 度 .。 有 关 函 数 的 内 容 将 在 第 3 章 中 进行 介绍 ,在 此 我 们 仅 通过 一 个 简单 的 例子 来 演示 length() 
函数 在 编写 函数 时 的 作用 : 
> 
>"print ton < tanccEon(xt 
十 for(t Ln length(gh)t 
+ Brint (Li 
让 } 
a 

这 个 例子 演示 了 将 向 量 中 的 元 素 逐 个 输出 的 方法 , 通过 length() 函 数 我 们 其 实在 循环 体 中 获 
得 了 向 量 的 索引 ， 这 是 非常 有 用 的 。 但 是 上 述 函 数 的 实现 仍然 存在 一 个 问题 ， 即 向 量 的 长 度 有 
可 能 为 0, 这 时 在 循环 过 程 中 , 变量 i 首先 取 值 为 1, 然后 取 值 为 0, 这 显然 不 是 我 们 所 期 望 的 。 
在 C 语言 中 ， 数 组 的 下 标 是 从 0 开始 计 的 ; 而 在 R 语言 中 ， 向 量 的 下 标 则 是 从 1 开始 计 的 ( 尽 
管 向 量 的 长 度 可 以 为 0)。 因 此 像 上 例 所 示 的 这 种 情况 在 实际 编程 中 应 当 多 加 注意 。 更 多 关于 函 
数 以 及 流程 控制 方面 的 话题 将 在 第 3 章 中 进行 讨论 。 





2.2 向量 的 运算 


有 人 说 :“R 是 一 种 函数 式 的 语言 。” 这 是 因为 在 实际 的 R 程序 中 ， 函 数 是 无 所 不 在 的 。 所 
有 的 R 程序 都 是 依赖 众多 函数 而 完成 的 。 更 有 其 者 ， 我 们 平常 所 用 的 各 种 运算 符 ， 其 实 也 是 函 
数 。 所 以 ， 下 面 的 示例 代码 会 得 到 同样 的 结果 : 
> 1+2 
[ha 
> 4"(1,2) 
[3 

前 面 我 们 讲 过 单个 元 素 就 是 一 元 问 量 , 单个 元 素 可 以 相 加 , 那么 向 量 自然 也 可 以 相 加 ,“+” 
运算 符 将 对 向 量 中 的 元 素 逐 一 加 和 。 例 如 : 
> (ly 
| 
0 ee 

对 两 个 向 量 使 用 运算 符 时 ， 如 果 要 求 两 个 向 量具 有 相同 的 长 度 ， 则 R 会 自动 循环 补 齐 ， 即 
重复 较 短 的 向 量 ， 直 到 它 与 另外 一 个 向 量 长 度 相 匹配 。 当 然 系 统 也 会 给 出 提示 告知 用 户 两 个 向 
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量 的 长 度 不 匹配 ， 以 防止 由 于 用 户 疏 忽而 造成 编码 错误 。 例 如 : 


il 0 











上 例 中 较 短 的 向 量 被 循环 补 齐 了 ， 所 以 上 述 运算 其 实 是 以 下 面 这 种 形式 执行 的 : 


| 采 a 








关于 向 量 的 一 个 很 重要 也 很 常用 的 运算 符 就 是 索引 ， 可 以 用 索引 来 选择 给 定向 量 中 特定 几 
个 元 素 所 构成 的 子 向 量 。 索 引 向 量 的 语法 格式 一 般 为 : 







它 所 给 出 的 结果 是 向 量 1 中 索引 为 向 量 2 的 那些 元 素 。 例 如 : 


上 面 的 例子 也 告诉 我 们 ， 索 引 向 量 中 的 元 素 是 可 以 重复 的 。 
另外 ， 负 数 的 下 标 表示 要 把 相应 的 元 素 吻 除 。 例 如 : 


nm ear 
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Be 0s 2005 3 0 e050 
> [~-2:-4] 
LO 
此 时 配合 使 用 length0 函 数 也 非常 有 用 。 比 如 我 们 希望 从 向 量 中 选择 除了 最 后 某 几 位 元 素 以 
外 的 其 他 元 素 ， 那 么 此 时 便 可 以 很 容易 实现 。 例 如 : 
> x[-length (x).] 
eS i es 
> x(angtn(ry oy 
Vm ei Ae 
本 节 的 最 后 我 们 还 要 介绍 两 个 非常 有 用 的 函数 any0 和 all0。 它 们 分 别 给 出 其 参数 是 否 至 少 
有 一 个 或 全 部 为 TRUE。 
wt (Sr Ll NLT TO 2 
> any (x>10) 
[1] TRUE 
> any (x>30) 
[1] FALSE 
>"all (> 
{1] FALSE 
> all (x>=1) 
[1] TRUE 
可 见 当 函数 any() 的 参数 向 量 中 至 少 有 一 个 元 素 符合 条 件 时 ， 函 数 就 返回 TRUE。 相 对 地 ， 
函数 alO0 只 有 在 参数 向 量 中 的 所 有 元 素 都 符合 条 件 时 ， 函 数 才 会 返回 TRUE。 


2.3 ”向量 的 筛选 


筛选 操作 是 R 中 十 分 常用 的 运算 之 一 ， 也 是 R 作为 一 种 统计 分 析 语 言 所 特有 的 运算 。 对 向 
量 中 的 元 素 进行 筛选 就 意味 着 从 向 量 中 提取 满足 一 定 条 件 的 元 素 ， 这 种 操作 现在 是 为 了 给 统计 
分 析 提 供 便 利 所 设置 的 操作 类 型 。 

首先 来 看 一 段 示例 代码 : 
> (LL 2 5 9) 
> b <- a[la<0] 
到 
位 12 二 5 

显然 上 述 代码 实现 了 从 和 矩阵 中 提取 负数 元 素 这 样 一 个 简单 的 筛选 任务 。 但 是 这 个 过 程 具 体 
是 如 何 实现 的 还 值得 我 们 探讨 。 如 果 单 独 执行 下 面 的 语句 : 
> a<0 


[1] TRUE FALSE TRUE FALSE TRUE FALSE 
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结果 我 们 发 现 语句 a < 0 得 出 的 是 一 个 布尔 向 量 。 如 果 向 量 中 的 某 个 元 素 满 足 条 件 ， 那 么 在 结果 
向 量 中 ， 该 元 素 对 应 位 置 处 的 新 元 素 就 是 TRUE， 和 否则 就 是 FALSE。 而 且 还 有 

> a[lc (TRUE, FALSE, TRUE, FALSE, TRUE, FALSE)] 

Ld 2 

这 就 表明 程序 最 终 是 在 一 个 布尔 向 量 的 作用 下 ， 完 成 了 对 原 向 量 中 元 素 的 筛选 任务 。 如 果 布 尔 
向 量 中 某 个 元 素 值 为 TRUE， 那 么 原 向 量 中 对 应 位 置 的 元 素 就 会 被 选 出 ， 所 有 被 选 出 的 元 素 按 
照 顺 序 排 好 就 得 到 了 筛选 的 结果 向 量 ， 也 就 是 一 个 子 向 量 。 


接 下 来 给 出 的 例子 涉及 了 赋值 操作 ， 假 设 有 一 个 向 量 ， 现 在 要 将 其 中 数值 小 于 0 的 元 素 都 
置 为 0， 则 有 
> a 
本 
> ala<0] <= 0 
ep 
过 0 


最 后 介绍 两 个 在 筛选 操作 中 非常 有 用 的 函数 subset0 和 which()。 当 对 向 量 使 用 subset() 函 数 
时 ， 它 与 前 面 介 绍 的 筛选 方法 之 间 的 区 别 主要 体现 在 处 理 NA 值 的 方式 上 。 请 读者 观察 下 面 这 
段 示 例 代 码 : 

a 人 
> a[la>=0] 

si OVNAZ 

> subset (a, a>=0) 

Wm 

在 上 述 示例 代码 中 ，subset() 函 数 的 作用 是 一 目 了 然 的 。 在 最 原始 的 筛选 方法 中 ，NA 是 未 
知 的 ， 所 以 它 是 否 满足 筛选 条 件 也 是 未 知 的 ， 因 而 它 最 终 会 出 现在 筛选 的 结果 向 量 中 。 在 实际 
编程 过 程 中 ， 很 多 时 候 可 能 都 需要 排除 NA 的 和 干扰， 这 时 就 需要 使 用 subset0) 函 数 。 

前 面 例子 中 的 往 选 , 其 最 终结 果 都 是 从 原 向 量 中 选择 满足 条 件 的 元 素 生 成 一 个 新 的 子 问 量 。 
但 有 时 我 们 想 要 知道 的 可 能 仅仅 是 满足 条 件 的 元 素 所 处 的 位 置 。 这 时 就 需要 用 到 which() 函 数 了 。 
例如 : 


Sa CN Dd On) 
> which (a<O0) 
看 三” 


程序 运行 的 结果 告知 我 们 原 向 量 中 第 一 个 和 第 二 个 元 素 是 负数 。 
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2.4 ”和 矩阵 的 创建 


在 线性 代数 中 ， 我 们 已 经 学 过 和 矩阵 (matrix) 的 概念 了 。R 中 的 和 矩阵 是 一 种 特殊 的 向 量 ， 它 
包含 两 个 额外 的 属性 : 行 数 和 列 数 。 和 矩阵 也 同 向 量 一 样 ， 有 模式 的 概念 ， 例 如 数值 型 或 者 字符 
型 等 。 但 须 注意 的 是 ， 向 量 并 不 能 被 看 成 只 有 一 列 或 者 一 行 的 矩阵 。R 提供 了 丰富 的 矩阵 计算 
功能 ， 而 且 有 报告 认为 其 分 析 速 度 可 媲美 专用 于 和 矩阵 计算 的 商业 软件 MATLAB。 

在 R 中 ， 和 矩阵 的 行 与 列 下 标 都 是 从 1 开始 的 。 例 如 和 矩阵 m 左上 角 的 元 素 就 记 作 m[1, 1]， 
方 插 写 里 的 第 一 个 数字 是 行 号 的 索 引 ， 第 二 个 数字 则 是 列 号 的 索引 。 而 且 和 矩阵 是 按 列 存储 的 ， 
也 就 是 说 先 存储 第 一 列 ， 然 后 再 顺序 存储 第 二 列 ， 并 依 此 类 推 。 最 常用 的 创建 秆 阵 的 方法 之 一 
就 是 使 用 matrix(0) 函 数 ， 例 如 : 


> me matrim(e (Ll, 2 dA HO) nnow = 2 neol mH 3) 




































































DT 
3l 
| 由 | a] 
Fad 2 a 6 
正如 前 面 所 说 的 那样 ， 当 我 们 把 向 量 e(1.2.3,4,5,6) 中 的 元 素 填 入 和 矩阵 m 时 ， 是 按 顺 序 逐 列 填 充 








的 ， 而 且 我 们 也 通过 参数 指定 了 行 数 和 列 数 ， 所 以 就 得 到 了 上 述 样 子 的 和 矩阵。 但 是 如 果 我 们 所 
给 的 行 数 和 列 数 之 积 ( 也 就 是 盾 阵 中 元 素 的 个 数 ) 大 于 向 量 中 元 素 的 个 数 时 ， 系 统 就 会 采用 前 
面 介绍 过 的 循环 补 齐 方 式 来 对 和 矩阵 进行 填充 ， 例 如 : 
> matrixte (Ll, 2 3 4 Nrow m2, nool = 4) 
Warning message: 
# 此 处 略 去 具体 警告 信息 内 容 ， 读 者 可 输入 以 上 代码 来 观察 系统 提示 
> 
Pod Eel eS ya 
[时 1 3 5 下 
| 2 4 6 2 


男 外 ， 妆 我 们 已 经 指定 了 要 填充 到 和 矩阵 中 的 向 量 元 素 时 ， 行 数 或 者 列 数 也 可 以 省 略 其 一 ， 
例如 : 


>m < matrix(e(li,2,3,4,9.6), nrow = 2) 
> 
人 下 

















[ea 
当 我 们 需要 使 用 矩阵 中 的 元 素 时 ， 可 以 使 用 下 列 语句 : 


> 四 [lv2] # 第 1 行 第 2 列 的 对 应 元 素 
[1] 3 
> [2 # 第 2 行 的 全 部 元 素 
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上 2 科 和 7 
[3] # 第 3 列 的 全 部 元 素 
po ee 
另外 一 种 创建 德 阵 的 方法 是 为 矩阵 中 的 每 一 个 元 素 分 别 赋值 。 用 这 种 方法 需要 预先 声明 要 
创建 的 是 一 个 矩阵 ， 并 且 给 出 它 的 行 数 和 列 数 。 在 《 射 雕 英雄 传 》 中 黄 敬 兽 给 出 了 一 个 九宫 格 
的 结果 ， 口 诀 : 戴 九 履 一 ， 左 三 右 七 ， 二 四 有 肩 ， 八 六 为 足 ， 五 居中 央 。 下 面 我 们 就 创建 这 样 
一 个 矩阵 。 
> m <- matrix(nrow = 3, ncol = 3) 
> m[l1,1]<=4;m[1,2]<-9;m[1,3]<-2 
tl 2 Lm ne Tu 2, 3 
> ml3,.1]<-87ml3;2]<-17m[l373]<-6 
>m 
[et rl 3 
Ea] 4 9 2 
ee 5 凡 
[3 柯 8 工 6 
尽管 矩阵 是 按 列 存储 的 ， 但 在 生成 矩阵 时 ， 我 们 亦 可 通过 设置 byrow 参数 来 使 是 阵 元 素 按 
行 排列 。 例 如 : 
2 Wx Matrixtc (ld gS ol nrow = 27 byrow,.=, TRURY 
> m 
by ee 
a a i 
Mio 5 6 
但 是 我 们 仍然 需要 注意 ， 上 述 这 种 做 法 仅仅 只 是 改变 了 用 向 量 生成 矩阵 时 的 填充 顺序 ， 和 矩阵 本 
身 仍然 是 按照 列 来 存储 的 。 


可 以 通过 甜 阵 索 引 来 提取 和 矩阵 中 的 昌 几 行 或 列 来 组 成 新 的 子 和 矩阵 ， 仍 然 以 前 面 的 九宫 格 算 
阵 为 例 : 


> | 

i 
网 则 9 2 
[2,] 5 7 
车 可 1 6 
> 及 上 2 了 7 了 239] 
人 


还 可 以 对 一 个 矩阵 中 的 子 和 矩阵 进行 赋值 ， 例 如 下 面 这 段 示 例 代码 就 给 从 原 矩阵 中 的 第 一 行 和 
站 


1 9,0,9,0,9) ,nrow = 2) 
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和 
再 举 一 例 ， 如 下 : 


为 <- matrix (nrow = 3 ncol = 3) 
3b se matrix (co!(d.,8, 69 DroOwW 2) 
Dy 





bed] Ere] 
bb 5 6 
bl 8 9 
pe ea se 
>'a 

| a ee 
tld NA NA NA 
[7d NA 5 6 
ba NA 8 9 


和 2 人 


向 量 的 负 值 索引 可 以 用 来 排除 某 些 元 素 ， 这 种 操作 对 于 矩阵 来 说 同样 适用 ， 例 如 : 


1 
Fl) 4 9 
bm 3 5 7 
13d 8 上 6 
mh 2 

[oth Eo) 


在 前 面 的 例子 中 ,访问 矩阵 中 的 元 素 是 通过 使 用 行 号 和 列 号 作为 索引 来 实现 的 。 除 此 之 外 ， 
还 可 以 给 和 矩阵 的 行 与 列 进行 命名 ， 并 以 行 名 和 列 名 来 作为 访问 的 索引 。 例 如 : 


rECOrd «<" matwiw(o(98, 1580 02 TB 90) ynrow = 2) 
colnames(record) < 一 c("Math™", "Pnysicsl "Chemiatry') 


> 
> rownames(record) < 一 ol John, "Mary™) 
>'record 

Math Physics Chemistry 


John 98 86 78 
仙 aEwi 7S5 92 95 
» Tecordl yohnnor Rnwsducsn | 
[8 
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2.5 ”和 矩阵 的 使 用 
在 掌握 了 矩阵 的 创建 方法 和 其 中 元 素 的 访问 方法 之 后 , 本 节 要 讨论 一 些 更 复杂 的 矩阵 操作 。 


2.5.1 和 矩阵 的 代数 运算 
前 面 我 们 介绍 过 向 量 的 代数 运算 ， 和 矩阵 可 以 进行 代数 运算 。 比 如 进行 矩阵 加 法 的 示例 代码 
如 下 : 

















ax matrir(el(L, SD, SV) nnow ,2) 
.le mat ri (te (Ll, 0 Ob), NrOw = 2 
入 区 

[ld 


smn 2 3 
red 8 
问 量 也 可 以 同 矩 阵 做 加 法 ， 运 算 规 则 是 将 癌 量 中 的 每 个 元 素 按 照 创建 矩阵 时 所 采用 的 顺序 
生成 一 个 盾 阵 ， 然 后 再 与 被 加 矩阵 做 和 。 如 果 向 量 的 长 度 小 于 和 矩阵 中 元 素 的 个 数 ， 系 统 会 用 御 
环 补 齐 的 方式 填 满 。 下 面 给 出 一 些 和 矩阵 和 向量 求 和 的 例子 。 
en 
<] 
[bn] 2 3 
[2 2 2 
Warning message: 
ST Te A 
longer ob lect Jength' gs not a multiple of shorter opblect Length 
另外 ， 请 读者 注意 如 果 向 量 的 长 度 大 于 矩阵 中 元 素 的 个 数 ， 程 序 则 无 法 执行 ， 读 者 应 该 避 
免 这 种 错误 。 


问 量 与 第 阵 的 其 他 代数 计算 也 遵循 上 述 计算 规则 ， 下 面 以 乘法 为 例 来 说 明 : 






































加 ,|| 陪 

Ly dhl re 
by 由 4 
[2 2 5 
[Sa 3 





Ly 出 8 
[2v 4 5 
[3 对 "2 


分 析 上 述 计算 ， 不 难看 出 最 后 的 结果 是 这 样 得 出 的 : 
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利和 汪 宝 RS 拓 


omen roti 


lx*1 4*2 1 8 
区 5 -| | 
3*1 6*2 3 2 
同 理 ， 还 可 以 得 到 下 面 的 计算 结果 : 
Rt i | 
和 
加 和 4 
2d 4 10 
fd 3 
3 夺 
emo pple ea 
[1 1 16 
[2 4 5 
[37] > le 
Warning message! 
eae ep ee ch 
longer object, length Ls not a multiple of shorter .obect length 


易 见 ， 当 向 量 的 长 度 与 矩阵 行 数 相等 的 时 候 ， 我 们 其 实 完 成 了 对 抢 阵 中 的 每 行 分 别 进行 代数 计 
算 这 样 的 效果 ， 下 面 的 例子 更 好 地 演示 了 这 个 技巧 的 作用 。 
































>m 
[到 和 ty3] 
二 川 UL TD SO 
网 
37] PD TO 0 


> m/rowSums (m) 
bl week: 3 





其 中 ， 函 数 rowSums0) 的 作用 是 对 矩阵 中 的 每 一 行 分 别 求 和 ; 相应 的 还 有 函数 colSums()， 即 对 
矩阵 中 的 每 一 列 分 别 求 和 。 读 者 可 以 查阅 R 的 帮助 文档 以 获取 更 多 有 关 这 两 个 函数 的 内 容 。 最 
终 上 述 程序 计算 出 了 每 个 元 素 于 其 所 在 行 中 的 比重 ， 这 个 方法 在 统计 分 析 时 将 会 非常 有 用 。 


抢 阵 同 单独 的 一 个 元 素 进行 相 加 或 者 相 乘 ， 就 相当 于 矩阵 中 的 每 个 元 素 分 别 与 这 个 加 数 或 
者 乘 数 做 运算 ， 例 如 : 
Ne 
[rm LY rb 
[i 4 8 
[2 3 4 
8 
Card he nee] 
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最 后 ， 我 们 还 要 指出 的 是 ， 在 做 数学 意义 上 的 矩阵 乘法 时 ， 需 要 使 用 运算 符 “%*%”， 而 
非 “*?”。 例 如 ， 若 要 进行 下 列 和 矩阵 乘法 运算 : 


和 和 


可 采用 如 下 代码 : 
> ar<~ matriz(le(lron 3 nrow Ss 2) 
SDA mattix( eh dO LN nrowW = 2 


Ca 
bed la 

ll) 1 3 

2 5 7 


2.5.2 ”修改 矩阵 的 行列 

与 向 量 的 情况 类 似 ， 和 矩阵 的 长 度 和 维 数 都 是 固定 的 ， 因 此 不 能 随意 增加 或 删除 矩阵 中 的 行 
或 者 列 。 但 是 我 们 可 以 给 和 矩阵 重新 赋值 ， 如 此 即 实现 了 对 于 和 矩阵 行列 的 修改 。 这 时 就 需要 用 到 
函数 rbind() 和 cbind()， 它 们 分 别 表示 row bind 和 column bind， 即 按 行 组 合 与 按 列 组 合 。 例 如 ， 
下 面 这 段 程序 
> new col < sot0 O00 


> m<- matrix(rep(1:4, times = 3),; nrow = 4 ) 
> Mewim < obund(new col 


> new m 

new_ col 
tL 由 0 
[2,1 0Q 222 
[3 Qe3 383 
[4,3 0444 


可 见 ， 函 数 cbind() 把 一 列 由 0 组 成 的 向 量 同 矩阵 z 组 合 到 了 一 起 ， 创 建 了 一 个 新 矩阵 。 而 
且 我 们 还 可 以 看 到 原来 的 向 量 名 变 成 了 和 矩阵 中 的 列 名 
如 果 被 组 合 的 向 量 长 度 不 足 时 ， 也 会 用 到 循环 补 齐 。 例 如 : 


> .cbhind(e (0 0) = my 
Bal :te lI 


[1,] 0 时 工 
7 0 2 2 2 
[3.1] 0 3 3 3 
; 0 4 4 4 


显然 ，rbind0 和 cbind() 的 另外 一 个 作用 是 在 生成 一 些小 矩阵 时 使 用 ， 例 如 : 
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地 2 第 RE 


es omen QT 
> nm 


Lot le 2 [3 


这 种 方法 看 起 来 非常 方便 ， 但 是 请 记 住 创 建 和 矩阵 是 非常 耗 时 的 任务 。 特 别 是 当 这 种 新 建 活 
动 被 写 在 一 个 循环 体 中 反复 执行 时 ， 这 种 消耗 可 能 是 无 法 忽视 的 。 所 以 从 效率 角度 考虑 ， 其 实 
还 有 很 多 需要 注意 和 值得 商检 的 地 方 。 


通过 赋值 操作 同样 还 可 以 实现 删除 矩阵 中 的 某 些 行 或 者 列 ， 比 如 : 




















> mh 
Loi), La v3] 
Ed] 由 2 3 
[2 1 5 6 
> new me ml ,el( ,3 
> ' new nm 
ll) 2 
[iy 2 
Bo) 4 6 


2.5.3 ”对 行列 调用 函数 

本 小 节 主 要 介绍 在 矩阵 中 使 用 apply0 函 数 ， 它 的 作用 是 让 用 户 能 够 在 矩阵 的 各 行 或 者 各 列 
上 调用 指定 的 函数 。 首 先 给 出 该 函数 的 语法 形式 : 
apply(m, dimcode, 'f, fargs) 
其 中 ，m 表 示 一 个 矩阵 ， 如果 dimcode 取 值 为 1， 则 代表 对 和 矩阵 中 的 每 一 行 应 用 函数 ， 若 
dimcode 取 值 为 2， 则 代表 对 和 矩阵 中 的 每 一 列 应 用 函数 ; f 则 是 应 用 在 行 或 列 上 的 函数 名 注意 
此 时 函数 名 后 面 无 须 加 括号 ); fargs 表示 可 选 参数 集 。 

例如 ， 下 列 代 码 实现 了 求 算 阵 中 每 一 列 的 最 大 值 这 样 一 个 功能 。 


























> 

[v2 T2 [3] 
[1 4 9 2 
{2 3 5 了 
L301 8 由 6 
Papplyimn 2, max) 
[8 9 


函数 apply0 中 亦 可 以 使 用 用 户 自己 编写 的 函数 ， 使 用 时 同样 只 需 把 函数 名 作为 参数 传 给 
apply() 即 可 ， 例 如 : 


bo 
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Er7LY:E2] 
EE 20 80 
er 40 60 
Wn 90 上 0 
> f <- function(x) {X/sum(x)} 
> a Ly nl ky 
> 

[Was WE 3 ll) pe a | 
E50 
FE2 10 0 

上 述 程序 的 作用 是 求解 矩阵 中 的 某 个 元 素 于 其 所 在 行 中 占据 的 权重 ， 这 个 程序 前 面 已 经 实 
现 过 ， 但 彼 时 用 到 的 是 rowSums0 函 数 ， 而 非 此 处 的 sum() 函 数 。 这 是 因为 rowSums() 函 数 的 参 
数 必须 是 一 个 和 矩阵， 而 apply() 函 数 的 作用 是 对 和 矩阵 中 的 行 或 者 列 ( 也 就 是 占 量 ) 应 用 其 参数 所 
指定 的 函数 ， 所 以 这 里 需要 使 用 sum() 函 数 。 

最 后 ， 读 者 可 能 还 会 对 程序 的 输出 结果 感到 困惑 。 因 为 此 处 的 y 是 一 个 2 行 3 列 的 和 矩阵， 而 
非 是 一 个 3 行 2 列 的 矩阵 (或 许 这 才 是 我 们 所 期 待 的 )。 显 而 易 见 的 是 第 一 行 的 计算 结果 构成 了 
apply0 函 数 输出 结果 的 第 一 列 ， 而 不 是 第 一 行 。 这 是 apply(0) 函 数 处 理 的 默认 方式 。 如 果 所 调用 
的 函数 返回 的 是 一 个 包含 mn 个 元 素 的 ， 那 么 函数 apply0) 的 执行 结果 就 会 有 n 行 。 如 果 用 户 希 望 
结果 矩阵 保持 与 原 矩 阵 相 同 的 结构 ， 则 需要 使 用 转 置 函 数 t0， 例 如 : 


> y <- t(apply(z,1,f£)) 


2 


如 果 所 调用 的 函数 只 返回 了 一 个 单元 素 的 向 量 , 那么 apply() 函 数 的 输出 结果 就 是 一 个 向 量 ， 
而 非 一 个 矩阵 。 


最 后 ， 我 们 要 指出 ， 在 使 用 applyO 函 数 时 ， 待 调用 的 函数 至 少 需要 一 个 参数 。 在 上 面 的 例 
子 中 ， 函 数 f0) 的 形式 参数 在 被 applyO 调 用 时 所 对 应 的 实际 参数 就 是 矩阵 的 一 行 或 者 一 列 ， 这 时 
在 apply0) 的 参数 列表 中 我 们 无 须 显 式 地 指明 。 有 时 ， 待 调用 函数 需要 多 个 参数 ， 用 apply() 调 用 
这 类 函数 时 ， 需 要 把 这 些 额外 的 参数 列举 在 函数 名 的 后 面 ， 并 用 去 号 隔 开 。 下 面 给 出 一 个 例子 
来 说 明 这 种 语法 : 
> m 

ye en ete EN 
tr 0 5” 3 


MI 
[ES 
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用 2 和 省 提 


Lay) BE GG 


outlier value <= function'(matrix row, method opt)l 
if (method opt==1) {return(max (matrix row) ) } 
Lf (method opt==0) {return (min(matriz row)).} 


十 二 十 V 


> apply(m loutlier valus, ly 

[T9983 598 34 

>"apply(m,1,outlier value,0) 

Ca 

在 上 述 代 码 中 函数 outlier_value() 通 过 参数 method_opt 来 控制 是 检测 最 大 值 还 是 检测 最 小 值 。 
当 使 用 apply0 函 数 时 ， 我 们 也 将 该 参数 加 在 了 参数 列表 中 ， 最 后 的 演示 结果 分 别 给 出 了 每 行 中 
的 最 大 值 和 最 小 值 。 本 章 的 重点 在 于 讨论 R 中 的 基本 数据 ， 更 多 有 关 函 数 的 话题 将 在 第 3 章 中 
介绍 。 




















2.6 ”和 矩阵 的 筛选 


和 矩阵 中 的 元 素 可 以 根据 一 定 的 条 件 进 行 筛选 ， 但 这 个 语法 多 少 有 点 令 人 感到 迷惑 ， 为 了 加 
以 说 明 ， 请 读者 先 来 看 下 面 这 段 示例 代码 ; 


> rbind(olLl li, he) (Lo A Lo oti Lo, ZY 
x 

















[we he 3 
ual Re ee ue 
2 he 
| LO 
> KE 
Ld fe2] Lr 
ue A i 
| ss ee 


其 中 ， 运 算 符 “%%“ 执 行 的 是 取 模 操作 ， 所 以 语句 x[,3]%%3==0 其 实 是 用 来 判断 矩阵 x 中 第 
三 列 里 的 每 个 元 素 是 否 能 够 被 3 整除 ,于 是 , 如 果 单 独 执行 下 列 语句 便 会 得 到 其 中 所 示 的 结果 : 


> result <- x[,3]%%3==0 
> result 
[yl PRUE FALSEIM TRUE 


上 述 语句 把 结果 赋 给 布尔 向 量 result， 大 是 将 此 癌 量 应 用 到 矩阵 x 中 ， 则 可 得 : 
Di Tes 


I 
BO 
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是 | jy 19 pa 

可 见 ，x[result,] 的 行 与 向 量 result 中 取 值 为 TRUE 的 行 相对 应 , 于 是 我 们 便 实现 了 从 和 矩阵 中 
提取 满足 条 件 的 行 这 样 一 个 功能 ， 在 本 例 中 这 个 所 谓 的 特定 条 件 就 是 指 “ 第 三 列 元 素 可 被 3 整 
除 ” 

因为 矩阵 也 是 向 量 ， 所 以 向 量 的 运算 对 于 和 矩阵 也 同样 适用 ， 例 如 : 
> m 

[a 
ee ee 
py | 3 5S 1 
pa 
> which (m%$2==0) 
has 3 

上 述 输出 结果 说 明 ， 从 向 量 索 引 的 角度 来 看 ，m 的 第 1、3、7、9 个 元 素 都 是 偶数 。 注 意 矩 
阵 是 按 列 存储 的 ， 所 以 索引 为 7 的 元 素 指 的 是 第 1 行 第 3 列 的 元 素 ， 也 就 是 数值 2， 显 然 它 也 
确实 是 一 个 偶数 。 

下 面 这 个 例子 中 使 用 了 更 为 复杂 的 筛选 条 件 。 该 段 程 序 旨 在 筛选 出 元 素 全 为 奇数 的 行 。 
>m 

[rl 
| 4 9 2 
ba 3 5 7 
”人 8 也 6 
> m[lml[,1]%%2==1'& m[,2]%%2==1 & m[,3]%%2==1,] 

[ES 

需要 注意 的 是 这 里 使 用 的 是 “上 ”运算 符 ， 而 非 “&& ”， 其 中 前 者 是 向 量 的 逻辑 “与 ” 计 
算 ， 后 者 则 是 用 于 条 件 判 断 语句 中 原子 型 变量 的 逻辑 “与 ”运算 。 更 多 关于 运算 符 的 内 容 将 在 
第 3 章 中 进行 介绍 。 

此 外 ， 上 述 示例 代码 中 还 有 一 个 问题 值得 黄 酌 。 对 一 个 矩阵 进行 筛选 ， 期 望 得 到 的 应 该 仍 
然 是 一 个 矩阵 〈 即 使 这 个 子 矩 阵 的 行 数 为 1)， 但 上 例 最 后 所 得 结果 却 是 一 个 向 量 。 就 算 元 素 是 
正确 的 ， 但 数据 类 型 已 经 发 生 了 改变 ， 如 果 这 个 返回 值 直 接 被 用 于 其 他 和 矩阵 函数 的 输入 就 很 有 
可 能 导致 程序 错误 ,为 了 防止 意外 发 生 的 降 维 , 我 们 需要 用 到 另外 一 个 技巧 , 即使 用 参数 drop。 
仍然 以 上 述 代 码 片 段 为 例 : 
> m[m{[,1]%%2==1 & m{[:2]%%2==1 & ml[,3]$$%2==1,,drop=FALSE] 


[1] [Fr2] Li3] 
tal 3 5 7 


通过 将 drop 置 为 FALSE， 我 们 最 终 得 到 了 一 个 矩阵， 而 非 向 量 。 
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此 外 ，drop 还 有 一 个 需要 我 们 仔细 品味 的 地 方 ， 那 就 是 它 的 参数 性 。 前 面 已 经 讲 过 ，R 是 
一 个 函数 式 的 语言 ， 其 中 的 运算 符 本 质 上 也 是 函数 (例如 之 前 说 过 的 “+”)。 据 此 不 难 想到 其 实 
方 括号 “[” 也 是 函数 ， 所 以 参与 “[” 执 行 的 操作 数 自然 就 可 以 被 看 成 函数 的 参数 。 于 是 ， 上 
述 代码 还 可 以 改写 为 如 下 这 种 形式 : 
> "(mn, ml,11%2==1 & ml,2] S82==1 &/ml,3] ss2==1,,drop=FALSE) 

be dy [2 es 
CAT 3 Sy 

至 于 那些 原本 就 是 向 量 的 对 象 , 为 了 让 其 参与 矩阵 运算 ， 可 以 通过 函数 as.matrix() 来 将 其 转 
化 为 算 阵 ， 例 如 : 


> C= (L020 30) 
SY <-Aasematnix (sy) 


SEX 

[,1] 
| 让 
[N20 
| ee 


上 例 也 说 明 , 将 一 个 向 量 通过 函数 as.matrix() 转 化 成 矩阵 ， 所 得 结果 是 一 个 列 数 为 1 的 矩阵 ， 而 
非 一 个 行 数 为 1 的 矩阵 。 
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第 号 章 
编写 R 程序 


a Fe TE 瑟 m -re en 一 caiatme 一 we 一 一 一 := 一 < 一 一 -一 


如 果 仅 仅 是 在 命令 行 逐条 输入 指令 进行 操作 ， 显 然 较 难 应 对 流程 复杂 的 任务 或 项 目 。 基 于 
冯 “。 诺 依 曼 (John von Neumann) 提出 的 “程序 存储 ， 顺 序 执行 ”理念 ， 现 代 计 算 机 编程 语言 
中 都 提供 了 关于 流程 控制 方面 的 语法 ， 从 而 使 得 程序 在 按 顺 序 逐 条 执行 计算 机 指令 的 原则 下 ， 
全 自动 化 地 完成 更 加 复杂 的 任务 。 本 章 就 介绍 在 使 用 R 语言 编写 计算 机 程序 时 所 需 的 一 些 基本 
要 素 。 


3.1 流程 的 控制 


尽管 现代 计算 机 已 经 能 够 完成 非常 复杂 的 任务 ， 但 归根 结 底 ， 计 算 机 本 质 上 所 能 做 的 事情 
仍然 仅仅 是 重复 执行 简单 的 计算 任务 。 要 实现 这 一 个 过 程 ， 计 算 机 在 执行 指令 时 就 必须 能 够 通 
过 条 件 选 择 和 循环 操作 来 进行 流程 控制 。 在 这 一 点 上 R 和 所 有 其 他 计算 机 编程 语言 是 一 致 的 ， 
但 R 有 一 些 特性 使 得 非 专 业 人 士 也 可 以 很 简单 地 编写 程序 。 
3.1.1 条 件 选 择 结构 的 概念 


条 件 选择 结构 〈 或 称 分 支 结 构 ) 就 是 通过 一 个 判断 ， 在 两 个 可 选 的 语句 序列 之 间 进 行 选 择 
执行 。 例 如 ， 根 据 判断 条 件 是 否 成 立 选 择 执行 A 操 作 或 者 B 操 作 ， 如 图 3-1 所 示 。 


图 3-1 分 支 结构 


wwaibbt.com DODOODDOD 


3 RE 


分 支 结构 依赖 于 一 些 没 有 先后 顺序 的 分 句 和 判断 条 件 ， 例 如 : 

e 人 的 正常 体温 是 36'C~37'C。 

。 体温 在 37.1C-~38C 之 间 叫 低烧 。 

e 体温 在 38.1C-~40C 之 间 叫 高 烧 。 

现在 来 分 析 一 下 这 三 个 分 句 : 第 一 个 分 句 说 明了 一 种 正常 的 情况 ， 第 二 个 和 第 三 个 分 句 中 
的 条 件 就 不 同 于 第 一 个 分 句 ， 并 且 这 两 个 分 句 的 条 件 也 不 同 。 不 难看 出 ， 组 合 后 的 句子 为 人 的 
正常 体温 是 36'C~37'C，, 当 高 于 这 个 温度 时 通常 就 是 发 烧 了 。 发 烧 分 为 两 类 , 体温 在 37.1°C~38'C 
之 间 叫 低烧 ， 体 温 在 38.1'C~40 人 CC 之 间 叫 高 烧 ， 如 图 3-2 所 示 。 





高 烧 低烧 正常 


36.5°C 





图 3-2 不 同 的 体温 


按照 这 种 思路 ， 计 算 机 语言 的 分 支 结构 就 是 先 对 某 种 条 件 进行 判断 ， 然 后 按照 是 否 满足 条 
件 去 执行 顺序 相同 的 两 个 语句 中 的 一 个 。 当 然 ， 按 照 分 支 结构 组 合 语句 后 ， 形 成 的 可 以 是 一 个 
完整 的 程序 ， 也 可 以 是 程序 段 。 

在 具体 实现 方式 上 ，R 语言 分 支 结 构 中 的 选择 过 程 是 通过 某 种 选择 语句 来 实现 的 ， 选 择 条 
件 一 般 就 是 逻辑 表达 式 或 条 件 表达 式 ; 选择 后 执行 的 语句 可 以 是 单条 语句 , 也 可 以 是 复合 语句 。 


3.1.2 ”条件 选择 结构 的 语法 
我 们 已 经 知道 ， 条 件 选 择 的 作用 在 于 当 指 令 执行 过 程 中 ， 遇 到 不 同情 况 时 根据 既定 原则 选 
择 其 中 一 条 路 径 继续 执行 任务 。 这 就 相当 于 一 个 人 面 对 一 条 交叉 路 口 时 要 选择 是 向 左 转 还 是 向 
右 转 一 样 。R 中 的 条 件 语句 主要 有 两 种 形式 ， 第 一 种 形式 为 : 
if (表达 式 ) { 
代码 段 1 


jelset 


代码 段 2 





} 
现在 来 看 下 面 这 段 示 例 代码 : 
> if(length(x) == 0) 1{ 
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十 cat ("Empty vector!\n") 
+ else { 
+ m = mean (x) 
+ Ss = sum(x) 
4 

与 C/C++、Python 等 主流 编程 语言 类 似 ，R 也 是 一 种 块 block) 状 结构 程序 语言 。 块 是 由 
花 括 号 划分 的 若干 条 语句 的 集合 ， 程 序 语 句 由 换行 符 或 分 号 分 隔 。 在 C 语言 中 ， 当 块 中 只 包含 
一 条 语句 时 ， 花 括号 可 以 省 略 。 但 在 R 中 ， 情 况 发 生 了 变换 。 你 也 许 会 猜想 语句 cat("Empty 
vectorl\n") 前 后 的 花 括 号 或 许 是 可 省 略 的 。 然 而 ， 这 是 必需 的 。 所 以 ， 上 述 代码 中 该 条 语句 前 后 
的 花 括 号 并 不 能 省 略 。R 的 语法 分 析 器 用 else 前 的 右 插 号 来 推断 这 是 一 个 if-else 结构 ， 而 不 只 
是 站 结构 。 在 交互 式 模式 中 ， 如 果 没有 了 花 括号 ， 语 法 分 析 器 会 错误 地 认为 这 是 让 结构 而 进行 
相关 的 操作 ， 这 显然 不 是 我 们 想 要 的 结果 。 

不 过 当 else 块 中 的 语句 也 比较 简单 (只 有 一 句 ) 时 ， 你 可 以 把 整个 分 支 结 构 写 在 一 行内 ， 
这 时 花 括号 便 可 以 省 略 。 例 如 : 
> if (x>=0) sqgrt (x) else NA 

此 外 ，if-else 语句 与 函数 调用 的 相似 之 处 在 于 ， 它 会 返回 最 后 的 赋值 。 从 这 个 角度 来 看 ，R 
语言 吸纳 了 很 多 函数 式 语言 的 特点 。 例 如 : 
> y <- if (x>=0) sqrt(x) else NA 


在 R 中 使 用 条 件 选 择 语句 的 第 二 种 格式 如 下 ， 事 实 上 ，ifelse() 是 一 个 函数 : 





Efelsel(b, u,v) 





此 处 的 b 是 一 个 布尔 值 向 量 ， 而 u 和 v 是 向 量 。 该 函数 返回 的 值 也 是 向 量 。 如 果 b 自 为 真 ， 则 返回 
值 的 第 个 元 素 为 u[]; 如 果 b 自 为 假 ， 则 返回 值 的 第 i 个 元 素 为 v[。 
上 面 的 例子 可 以 改写 为 : 
> ifelse(x >= 0, sqrt (x), NA) 
再 来 看 一 个 处 理 向 量 的 例子 : 
> = :10 
> y <- ifelse (x%%2 == 0, 0, 1) 


> 
0 


上 述 代码 由 在 产生 一 个 向 量 , 该 结果 向 量 在 x 中 对 应 元 素 为 偶数 的 位 置 取 值 是 0, 且 在 x 中 对 应 元 
素 为 奇数 的 位 置 取 值 是 1。 


3.1.3 ”循环 结构 的 基本 概念 
循环 结构 就 是 在 满足 某 个 条 件 之 前 反复 执行 一 个 语句 序列 。 这 个 语句 序列 叫 作 循环 体 ， 如 
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图 3-3 所 示 。 


L 一 1 
图 3-3 ”循环 结构 
要 理解 循环 结构 ， 不 妨 来 思考 下 面 这 个 句子 组 合 练习 。 不 过 ， 此 处 的 组 合 练习 中 ， 存 在 一 
些 做 重复 事情 的 分 句 ， 我 们 需要 将 这 些 分 句 进行 总 结 和 提炼 ， 最 终 组 成 一 个 简练 并 能 够 总 结 所 
有 分 句 意 思 的 句子 。 
e 新 影片 叫 《 阿 甘 正 传 》。 
e 电影 院 周 一 在 放映 新 影片 。 
e 电影 院 周二 在 放映 新 影片 。 
。 电影 院 周三 在 放映 新 影片 。 
现在 分 析 一 下 这 四 个 分 句 。 第 一 个 分 句 说 明了 新 影片 的 名 字 ， 后 面 的 三 个 分 句 其 实说 的 都 
是 一 件 事 : 电影 院 放 映 新 影片 ,只 不 过 三 个 分 句 中 的 时 间 不 同 。 不 难看 出 , 组 合 的 句子 应 该 为 : 
周一 到 周三 这 段 时 间 ， 电 影院 都 在 放映 新 影片 《 阿 甘 正 传 》。 这 个 句子 中 周一 到 周三 是 放映 影片 
的 时 间 段 ， 也 可 以 看 作 循 环 地 做 放映 新 影片 这 件 事 的 条 件 ; 放映 新 影片 是 具体 做 的 事情 ， 即 循 
环 的 主体 。 
在 具体 实现 方式 上 ，R 语言 循环 结构 中 的 循环 过 程 是 通过 某 种 循环 语句 来 实现 的 ， 循 环 条 
件 一 般 就 是 逻辑 表达 式 或 条 件 表达 式 ; 循环 体 可 以 是 单条 语句 ， 也 可 以 是 复合 语句 。 


3.1.4 循环 结构 的 基本 语法 
和 C 语言 类 似 ，R 中 也 可 以 使 用 while 语句 来 实现 循环 。 它 的 基本 调用 格式 为 : 
while (条 件 ) { 
代码 段 
} 
通常 在 无 法 确定 运行 次 数 的 情况 下 ， 使 用 while 语句 会 比较 方便 。 例 如 : 
>iwhile(ti <= 5) 1 ， ‖ 中 
OY 
+ 
Th 
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LE 








和 while 语句 功能 类 似 的 还 有 repeat 语句 , 但 是 它 通常 需要 同 条 件 选择 语句 和 break 语句 来 
配合 。 看 看 下 面 这 段 示 例 代码 : 


全 repeatt 














+ eat(i, my) 

外 次 吉 

二 人 

十 at 
未 break 

于 

业 下 














R 语言 中 另外 一 种 更 为 常用 的 实现 循环 的 方式 是 使 用 for 语句 。 将 该 语句 与 向 量 配合 使 用 ， 
可 以 更 方便 地 指定 循环 执行 的 次 数 。 它 的 基本 调用 格式 为 : 
(人 最 向 是) 


代码 段 














} 





看 看 下 面 这 段 示例 代码 : 


EM 囊 二 全) 
市 Gat RE 
el 




















同样 可 以 将 条 件 选 择 语句 和 break 语句 的 组 合 放 在 if 的 循环 体内 来 实现 在 某 些 条 件 下 结束 
_ 循环 的 操作 。 例 如 : 


for(m dm 
+ Cat 

+ bea le es 
讶 catu( TNn™) 
十 break 
兴 

小 





} 
} 


现在 利用 前 面 学 习 的 内 容 ， 求 三 位 数 的 水 仙 花 数 。 水 仙 花 数 是 指 一 个 n 位 数 (n>3)， 其 每 
个 位 上 的 数字 的 mn 次 寡 之 和 等 于 它 本 身 。 例 如 ，13 + 53 + 33 = 153。 





0 

十 a= floor(i/100) 

+ b= floor((i-a*100)/10) 
+ ~ c= i-a*1l00-b*10 | 
本 
二 
中 


Ef (a3to 3+ 3 1) Cat (ti, n\n"y) 
| 
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3.2 算术 与 逻辑 


本 书 前 面 的 例子 中 已 经 多 次 使 用 到 了 R 中 的 运算 符 。 er bd 
辑 操 作 的 符号 。 我 们 可 以 将 R 语言 中 的 运算 符 大 致 划分 为 三 类 ， 如 表 3-1 所 示 。 

































































































表 3-1 运算 符 
数学 运算 比较 运算 逻辑 运算 
机 加 法 < 小 于 | 迪 辑 非 
减法 - 人 逻辑 与 
* 乘法 二 小 于 或 等 于 刘 钳 与 
/ 除法 大 于 或 等 于 | 逻辑 或 
3 等 于 | 逻辑 或 
%% 模 除 二 不 等 于 异 或 
整除 





细心 的 读者 可 能 发 现 了 表 3-1 中 的 不 寻常 之 处 “逻辑 与 ”和 “逻辑 或 ”分 别 有 两 个 符号 。 
事实 上 ， 尽 管 & 和 && 都 执行 逻辑 与 运算 ， 但 是 二 者 并 不 完全 相同 。 其 中 & 的 作用 是 执行 两 个 向 
量 之 间 的 逻辑 与 ， 而 && 是 执行 两 个 标量 之 间 的 逻辑 与 。 符 号 | 与 || 的 关系 也 是 这 样 的 ， 前 者 处 理 
向 量 ， 后 者 处 理 标 量 。 但 这 似乎 是 一 个 很 令 人 困惑 的 设计 。R 语言 表面 上 没有 标量 的 类 型 ， 因 
为 标量 可 以 被 看 作 含有 一 个 元 素 的 向 量 ， 但 逻辑 运算 符 对 标量 和 向 量 又 有 着 不 同 的 形式 ， 貌 似 
有 些 画 蛇 添 是 。 我 们 应 该 相信 R 中 做 这 样 的 设计 绝对 有 它 的 道理 。 来 看 下 面 这 段 示例 代码 : 
> rn oN(TRUEB, FALSh,. TRUE) 
> Ym oO(TRUE TRUE, (FALSE) 
> (证 ee vil) cat lbotn, TRUOEPNAYY 
both TRUE 
> Lf BV cat("both TAROR\ A 
both TRUE 
Warning message: 
Lm (Eg VN oat("boEs RURN") : 
the condition has length > 1 and only the first element will be used 
显然 微妙 之 处 就 在 于 ，if 语句 的 条 件 判 断 语 句 之 取 值 ， 只 能 是 一 个 逻辑 值 ， 而 不 是 逻辑 值 的 向 
量 。 这 也 是 以 上 代码 的 输出 中 会 出 现 警 告 提示 的 原因 ， 因 此 R 语言 中 逻辑 运算 符 有 标量 和 向 量 
之 分 是 有 必要 的 。 


最 后 , 需要 说 明 的 是 , 逻辑 值 TRUE 和 FALSE 可 以 缩写 为 T 和 下 , 但 两 者 都 必须 是 大 写 的 。 
在 本 书后 面 的 示例 代码 中 ， 尤 其 是 向 函数 中 传递 的 参数 ， 更 多 地 使 用 了 缩写 的 形式 。 
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3.3 ”使 用 函数 


函数 是 模块 化 编程 的 基础 ， 是 封装 思想 的 最 朴素 体现 。 要 想 更 大 程度 地 发 挥 R 的 能 力 ， 掌 
握 R 中 函数 的 编写 和 使 用 技巧 尤为 重要 。 我 们 平常 所 调用 的 各 种 程序 包 ， 本 质 上 说 就 是 封装 好 
的 各 种 函数 集合 。 


3.3.1 函数 式 语 言 

尽管 R 是 一 种 命令 式 编程 语言 ， 但 它 仍然 从 函数 式 编程 语言 中 汲取 了 许多 特点 。 函 数 是 R 
语言 编程 的 核心 ， 其 大 多 数 工作 是 通过 函数 来 实现 的 。 即 使 你 对 控制 台 的 一 些 操作 看 似 是 通 过 
单 击 鼠 标 来 实现 的 ， 但 它 本 质 上 仍然 是 在 执行 一 系列 函数 。 例 如 ， 当 你 要 退出 程序 时 ， 你 可 以 
在 File 的 下 拉 菜 单 中 选择 Exit 或 者 直接 单 击 程序 右上 角 的 “x”, 但 这 些 操作 本 质 上 都 是 通过 调 
用 退出 函数 来 完成 的 ， 如 图 3-4 所 示 ， 其 中 的 q0) 就 是 退出 函数 。 


| R GuiG2-b 所 加 发 


He bd View Me Packapor Wi 





R veryion ,2 .2 (AOE 
Copyright (C) 2014 The AR Foundattion fo 
|| Flattorm: 1336-v64-mingw32/1336 (32-bic) 


二 ump ki Melmet" 
x StACLIE 











3-4 调用 退出 函数 

另 一 方面 ， 本 书 前 面 曾经 讲 过 ，R 中 所 用 的 各 种 运算 符 也 都 是 函数 。 更 准确 地 说 ，R 中 根 
本 就 没有 运算 符 ， 而 只 有 函数 。 我 们 还 给 出 了 向 “+” 函 数 传递 参数 的 例子 ， 此 处 不 再 重复 。 

控制 台 提 供 了 一 种 对 R 语言 进行 解释 执行 的 方式 ， 这 为 用 户 进行 交互 式 操 作 提供 了 便利 ， 
而 且 本 书后 面 的 许多 例子 也 都 是 通过 在 控制 台 输 入 代码 来 完成 的 。 但 是 为 了 更 充分 地 利用 R 语 
言 ， 并 更 深入 地 认识 它 ， 讨 论 如 何在 R 中 编写 自 定 义 的 函数 仍然 很 有 必要 。 

函数 其 实 就 是 一 个 相对 独立 的 能 够 完成 一 定 具体 任务 的 代码 段 。 我 们 甚至 可 以 简单 地 把 函 
数 比 喻 成 一 个 “ 黑 盒子 ” 如 图 3-5 所 示 。 这 个 黑 盒子 对 外 只 有 两 个 接口 ， 一 个 用 来 接收 数据 ， 
另 一 个 用 来 输出 数据 。 我 们 只 要 把 数据 送 进 黑 盒 子 ， 就 能 得 到 计算 结果 。 至 于 盒子 内 部 究竟 是 
如 何 工作 的 ， 都 可 不 必 关 心 。 函 数 就 是 如 此 ， 外 部 程序 所 知道 的 仅 限 于 给 函数 传 入 什么 数据 ， 
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以 及 函数 输出 什么 数据 ， 其 他 都 无 关 紧 要 。 


输出 





图 3-5 黑 盒子 


不 同 的 函数 可 以 接收 不 同 的 输入 ， 给 出 不 同 的 输出 ， 当 然 这 跟 内 部 的 实际 工序 有 关 ， 即 函 








数 所 执行 的 功能 各 异 。 这 就 好 比 现实 生活 中 的 化 学 反应 过 程 : 氮气 和 氧气 反应 可 以 生成 水 ， 氧 
化 钢 溶 液 和 硫酸 混合 可 以 生成 硫酸 钒 沉淀， 水 也 可 以 分 解 成 氧气 和 氧气 。 化 学 反应 的 过 程 总 是 
伴随 着 一 定 物质 的 输入 和 新 物质 的 产 出 , 至 于 什么 物质 生成 什么 新 物质 ,除了 跟 输入 有 关 以 外 ， 
还 跟 反应 进行 的 条 件 有 关 。 例 如 : 木炭 在 氧气 中 燃烧 可 以 生成 二 氧化 碳 ， 但 是 在 某 些 条 件 下 也 
可 能 产生 一 氧化 碳 ， 如 图 3-6 所 示 , 这 就 取决 于 实际 反应 的 条 件 。 函 数 也 是 如 此 ， 同 样 的 输入 ， 
也 可 以 得 到 不 同 的 结果 ， 这 就 跟 函 数 内 部 的 实现 有 关 。 


二 








一 氛 化 碳 
OR 
二 氧化 碳 


A 





图 3-6 化 学 反应 与 其 反应 条 件 有 关 
经 过 上 面 的 描述 ， 读 者 应 该 对 函数 有 了 一 个 初步 的 认识 ， 可 以 明确 函数 就 是 接收 输入 ， 并 
在 其 内 部 处 理 数据 ， 最 后 再 输出 结果 的 一 个 独立 的 代码 单元 。 本 书 前 面 已 经 用 过 很 多 R 中 的 内 
置 函 数 了 ， 这 些 函 数 的 输入 参数 都 放 在 一 个 插 号 中 。 用 户 也 可 以 编写 自己 的 函数 ， 并 且 这 些 函 
数 和 R 语言 中 的 其 他 函数 都 有 一 样 的 特性 。 


3.3.2 ”默认 参数 值 
函数 是 R 语言 的 核心 。R 中 的 许多 特殊 设计 令 用 户 可 以 非常 灵活 地 运用 其 中 的 函数 。 作 为 
对 比 ， 不 妨 来 看 看 下 面 这 段 C++ 程序 。 


#¥include <iostream> 
using namespace stdy 











minys (nt %, intly = 1) 
‘return xyy 
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int main(int arge, char** argv)} { 
cout<< minus (1) <<endl; 
Cout<< minus (lr 2). <<endl» 
ont<< minus (2 J <<end: 
return 0; 


; 

上 述 代码 实现 的 功能 非常 简单 ， 函 数 minus() 接 收 x 和 y 两 个 参数 ， 然 后 返回 x 一 y 的 值 。 参 数 y 有 
一 个 默认 值 1， 如 果 函 数 在 调用 时 只 收 到 一 个 参数 ， 它 会 将 1 作为 y 的 取 值 来 使 用 。 一 个 需要 注 
意 的 地 方 是 ，x 和 y 两 个 参数 在 调用 时 有 先后 顺序 之 分 ， 根 据 函 数 的 定义 ， 前 面 一 个 是 x 的 取 值 ， 
后 面 一 个 是 y 的 取 值 。 函 数 调 用 时 ， 如 果 调 换 x 和 y 的 赋值 ， 将 会 得 到 不 同 的 结果 。 

对 于 默认 参数 值 ，R 语言 中 有 同样 的 设计 。 来 看 下 面 这 个 函数 的 定义 ， 它 的 作用 是 返回 正 

态 分 布 函数 的 分 位 数 。 第 4 章 中 我 们 还 会 用 到 它 。 

qnorm(p, mean = 0, sd = 1, lower.tail = TRUE, log.p = FALSE) 

函数 中 的 p 给 出 的 是 正 态 分 布 函数 的 概率 值 。 参 数 mean 给 出 正 态 分 布 函数 是 均值 ， 它 的 默认 值 
为 0， sd 给 出 正 态 分 布 函数 是 标准 差 ， 它 的 默认 值 为 1。 这 说 明 当 我 们 不 显 式 地 给 出 参数 mean 
和 sd 的 值 时 ， 系 统 建立 的 就 是 一 个 标准 正 态 分 布 函数 。 所 以 ， 下 面 两 个 语句 所 得 之 结果 就 是 相 
同 的 。 

> gqnorm(0.975) 

[i] 1.959964 
> qnorm(0.975, 0, 1) 

[il 1.959964 

但 与 C+ 中 的 情况 不 一 样 的 是 ，R 函数 调用 中 的 参数 列表 里 参数 顺序 并 不 是 固定 的 ， 在 给 

定 参数 名 的 情况 下 ， 它 们 的 顺序 是 无 关 紧 要 的 。 换 句 话 说， 函数 在 调用 时 ， 参 数 既 可 以 按 位 置 
来 调用 ， 也 可 以 按 名 字 来 调用 。 来 看 下 面 这 段 示 例 代 码 。 

> Snorm(0 dy Li buS) 

[1] 3.939946 

> "Anornm(0dTS57 se es ldr maanlslt) 

[1 3.939946 


> gqnorm(sd = 1.5, mean = 1, Pp = 0.975) 
[1] 3.939946 


可 以 看 出 ，R 中 函数 的 使 用 是 非常 灵活 、 非 常 简便 的 。 
3.3.3” 自 定义 函数 


编写 自 定义 的 函数 可 以 让 开发 人 员 更 加 有 效 、 灵 活 、 合 理 地 使 用 R。 前 面 其 实 已 经 写 过 一 
个 函数 了 ， 即 “Hello World” 程 序 。R 中 的 函数 是 一 系列 语句 的 组 合 ， 形 式 如 下 : 
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变量 名 <- function (变量 列表 ) {函数 体 } 


作为 例子 , 我 们 写 了 一 个 在 R 中 显示 jpg 图 像 的 函数 imgshow(), 它 读 取 一 个 图 像 文 件 地 址 
作为 参数 ， 然 后 在 屏幕 上 输出 图 像 。 
> library (jpeg) 
> imgshow <- function (file)t 
不 img = readJPEG (file) 
+ plot (ol(0 Emma tT el Ga 全 页 GT) 有 
十 tvper = nnertab "TE viab es 
+ rasterTrmagel(imgy, 0 0 Qim(img) ld Aim(img) Ly 
wl 
执行 时 ， 这 个 函数 必须 载 入 内 存 。 一 旦 函数 载 入 后 ， 我 们 就 可 以 键入 一 条 命令 以 读 入 文件 
并 画 出 我 们 想 要 显示 的 图 像 。 例 如 ， 下 面 语 名 的 执行 结果 如 图 3-7 所 示 。 


> imgshow("C:/lena.jpg") 


RE ER wt gi 














图 3-7 图 像 的 显示 


函数 接收 输入 参数 )， 经 一 定 计 算 处 理 后 应 当 将 结果 输出 (返回 值 )。 我 们 上 面 定 义 的 函 
数 并 没有 提供 返回 值 ， 或 者 可 以 认为 其 返回 值 为 空 。R 中 函数 的 返回 值 可 以 是 任何 R 对 象 。 尽 
管 返回 值 通常 为 列表 形式 , 但 其 实 返 回 值 甚至 可 以 是 另 一 个 函数 .如 果 想 让 函数 返回 一 定 结果 ， 
通常 需要 显 式 地 调用 return(0)， 把 一 个 值 返回 给 主 调 函数 。 如 果 不 使 用 这 条 语句 ， 默 认 将 会 把 最 
aas 来 看 下 面 这 段 示 例 代 码 ， 函 数 reverse.list() 实 现 的 作用 是 将 向 量 
中 的 元 素 逆序 重 排 ， 并 返回 结果 向 量 。 
> reverse.list <- function (x){ 

+ tor(a dn lL: (Lengthtz)y /2 
本 tmp = x[i] 








wwaibbt.com 0DDOOOOOD 


37 


R 语言 实战 一 一 机 器 学 习 与 数据 分 析 


x[i} = x[length (x)=i+1] 
x[length (x)-i+1] = tmp 


return (x) 


二 十 十 -十 十 


前 面 已 经 介绍 过 ， 如 果 不 显 式 地 使 用 return() 函 数 ， 默 认 将 会 把 最 后 执行 的 语句 的 值 作为 返 
回 值 。 所 以 上 面 的 函数 还 可 以 改写 为 如 下 形式 。 


> reverse.list <- function(x){ 
+ for(1 dn Tl (lengEh (tx) /2 )t 
十 tmp = 
(让 
十 x[length(x)-i+1] = tmp 
所 } 

下 Xx 

Se 


现在 R 语言 普 裔 的 习惯 用 法 是 避免 显 式 地 调用 return()， 尽管 这 样 做 的 原因 讳 莫如 深 , 或 者 
我 们 可 以 认为 这 是 一 种 约定 俗 成 。 


3.3.4 递归 的 实现 


递归 是 强大 的 问题 解决 工具 ， 是 程序 设计 中 的 一 种 重要 思想 和 机 制 。 递 归 有 助 于 写 出 清晰 
易 懂 的 代码 ， 能 有 效 地 提高 程序 的 整体 风格 。 什 么 是 递归 呢 ? 在 数学 及 程序 设计 方法 学 中 为 递 
” 归 下 的 定义 是 这 样 的 ， 若 一 个 对 象 部 分 地 包含 它 自己 ,或 用 它 自 己 来 定义 自己 ， 则 称 这 个 对 象 
是 递归 的 ， 若 一 个 过 程 直 接 或 间接 地 调用 自己 ， 则 称 这 个 过 程 为 递归 的 过 程 。 简 而 言 之 ， 递 归 
方法 就 是 直接 或 间接 地 调用 其 自身 。 递 归 方法 可 以 用 来 将 一 些 复杂 的 问题 简化 。R 也 像 其 他 语 
言 一 样 支持 递归 ， 而 且 需 要 在 return0) 函 数 的 配合 下 完成 。 


1904 年 ， 瑞 典 数学 家 海里 格 。 冯 “。 科 赫 〈Helge von Koch) 提出 了 后 来 以 他 名 字 命 名 的 分 
曲线 一 一 科 赫 曲线 ， 这 也 是 最 早 被 描述 的 分 形 曲 线 之 一 。 设 想 一 个 边 长 为 1 的 等 边 三 角形 ， 
取 每 边 中 间 的 三 分 之 一 ， 接 上 去 一 个 形状 完全 相似 的 但 边 长 为 其 三 分 之 一 的 等 边 三 角形 ， 结 果 
一 个 六 角形 ,再 取 六 角形 的 每 条 边 做 同样 的 变换 , 即 在 中 间 三 分 之 一 接 上 更 小 的 等 边 三 角形 ， 
以 此 重复 ， 直 至 无 穷 ， 如 图 3-8 所 示 。 显 然 ， 每 次 变化 后 图 形 的 面积 和 周 长 都 会 增加 ， 但 是 总 
面积 的 极限 却 趋向 一 个 有 限 值 (图 形 的 面积 永远 不 会 超过 初始 三 角形 的 外 接 圆 ), 而 图 形 的 周 长 
却 具有 无 限 长 度 。 相 比 于 平常 的 几何 图 形 , 科 赫 曲线 的 这 种 特殊 性 质 显得 非常 不 可 思议 。 此 外 ， 
科 赫 曲线 还 具有 极其 复杂 而 精细 的 自 相似 结构 ， 即 某 一 个 细节 放大 后 将 呈现 出 与 整体 的 惊人 相 
似 。 科 赫 曲 线 的 生成 方式 就 是 一 种 递归 。 
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图 3-8 科 赫 曲线 


在 计算 机 程序 中 ， 递 归 有 很 多 实现 层面 的 意义 。 例 如 ， 弟 归 定 义 的 数据 结构 、 弟 归 实 现 的 
算法 等 。 现 在 我 们 所 关注 的 是 递归 调用 的 函数 。 例 如 ， 下 面 是 递归 实现 的 计算 裴 波 那 契 数 的 函 
数 。 
> Fib <= function(n)1 
二 if{(n<=1) return(n) 

十 else zeturn(Fib(n-l)+Eip(n-2)) 

0 

在 定义 递归 方法 时 务必 谨慎 ， 因 为 不 适当 的 递归 很 可 能 产生 一 个 方法 永 无 止境 地 调用 其 自身 。 
所 以 使 用 递归 时 ， 必 须 确保 有 一 些 “ 基 本 条 件 ”(base case) 能 够 采用 非 递 归 的 方式 计算 得 到 ， 
这 是 使 用 递归 方法 的 重要 前 提 。 基 本 条 件 的 满足 意味 着 采用 递归 处 理 后 的 子 问题 可 以 直接 解决 
时 ， 就 停止 分 解 ， 而 这 些 可 以 直接 求解 的 问题 就 叫 作 递归 的 基本 条 件 。 为 了 使 计算 最 终 能 够 完 
结 ， 任 何 递归 调用 都 要 朝 着 基本 条 件 的 方向 进行 。 例 如 ， 代 码 中 的 “这 mn<=1) return(n)” 就 是 所 
谓 的 基本 条 件 。 

下 面 的 代码 调用 了 上 述 函数 ， 它 输出 的 是 一 个 斐 波 那 契 数 列 。 
> Fib,.array <- function(n) { 

ds 4 

cat (Fib (Sr ") 
if( d= nt 
cat (WARY) 
break 
| | 
} 
} 
Fib.array (8) 
De 


递归 是 解决 问题 的 一 种 很 优雅 的 方法 ， 用 递归 书写 的 函数 都 非常 精简 。 但 是 递归 也 存在 两 
个 潜在 缺点 。 首 先 ， 递 归 是 非常 抽象 的 。 递 归 其 实 是 数学 归纳 法 证 明 的 逆 过 程 ， 对 于 那些 缺乏 
相应 的 数学 训练 的 初学 者 而 言 ， 递 归 的 函数 通常 都 是 很 难 理解 的 。 其 次 ， 递 归 很 浪费 内 存 ， 当 
用 R 处 理 大 型 问题 时 ， 这 可 能 会 是 个 难题 。 


请 > 4 不 于 十 二 十 
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常常 被 用 来 作为 递归 演示 的 另外 一 个 著名 的 程序 就 是 所 谓 的 快速 排序 算法 。 英 国 计 算 机 科 
学 家 安东尼 。 霍 尔 (Antony Hoare) 在 其 1962 年 发 表 的 论文 中 提出 了 一 种 高 效 的 划分 交换 排序 
算法 ， 即 著名 的 快速 排序 算法 。 该 算法 也 是 一 种 平均 性 能 非常 好 的 排序 方法 。 

快速 排序 算法 采用 了 一 种 分 治 的 策略 ， 其 基本 思想 是 取 竺 排序 对 象 序列 中 的 某 个 对 象 为 基 
准 〈 比 如 第 一 个 对 象 )， 按 照 该 关键 码 的 大 小 ， 将 整个 对 象 序列 划分 为 左右 两 个 子 序 列 : 左 侧 子 
序列 中 所 有 对 象 的 关键 码 都 小 于 或 等 于 基准 对 象 的 关键 码 ， 右 侧 子 序列 中 所 有 对 象 的 关键 码 都 
大 于 基准 对 象 的 关键 码 ， 基 准 对 象 排 在 这 两 个 子 序列 中 间 ， 然 后 分 别 对 这 两 个 子 序列 重复 施行 
上 述 方法 ， 直 到 排序 完成 为 止 。 

R 的 向 量 科 选 能 力 和 c() 函 数 使 实现 quicksort 变 得 相当 容易 。 下 面 给 出 示例 代码 。 请 读者 注 
意 体 会 其 中 的 基本 条 件 设 定 。 
文中 二 由 于 总 捧 二 站 让 SOR (和 
if(length(x) <=1 ) return (x) 
pivot <= x[1] 
rest <— x[-1] 
sv1 <~ restlrest < pivot] 

SV2 <- rest[rest >=pivot] 
svl <- quicksort (sv1) 


SV2 <- quicksort (sv2) 
return(c{(svil, pivot, sv2)) 


寺 斗 十 沾 十 十 十 十 咎 


3.4 ”编写 代码 


本 书 中 的 大 部 分 例子 都 是 基于 控制 台 的 交互 式 操作 。 但 对 于 那些 要 重复 好 多 次 的 程序 片段 ， 
将 其 保存 为 一 段 R 程 序 文 件 是 一 个 不 错 的 选择 ,通常 ,R 程 序 以 ASCII 格 式 保存 ,扩展 名 为 .R”。 


你 可 以 在 类 似 记事 本 、EditPlus 或 Sublime Text 等 文本 编辑 器 中 编辑 R 语言 的 代码 ， 然 后 
用 source() 函 数 将 代码 读 入 R。 例 如 ， 我 们 在 文件 “func.R” 中 编写 一 个 利用 欧 几 里 得 算法 计算 
两 个 整数 的 最 大 公约 数 的 函数 gcd()， 源 代码 如 下 : 
god rr™ function(arblt 
if (b == 0) return(a) 


else return(gcd(b, a %% b)) 
} 


然后 ， 在 控制 台中 用 下 面 的 代码 读 入 该 文件 ， 并 调用 gcd() 函 数 。 


> source{("C:;/func.R") 
> gcd(1i2,20) 
{也 和 "要 
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函数 都 是 对 象 ， 基 于 这 一 事实 ， 在 R 的 交互 式 模式 下 编辑 函数 应 该 也 是 可 行 的 。 事 实 确实 
如 此 。 利 用 前 面 提 到 的 那些 文本 编辑 器 来 对 R 代码 进行 单独 的 编辑 是 大 多 数 开发 人 员 所 青睐 的 
做 法 。 但 是 对 于 较 小 的 改动 ， 使 用 函数 edit() 来 处 理会 更 方便 。 

例如 ， 现 在 我 们 想 修 改 函 数 gcd()， 可 以 键入 下 面 这 行 命令 : 
> gcd <- edit (gcd) 


这 会 为 gcd() 的 代码 打开 默认 编辑 器 ,然后 我 们 可 以 进行 编辑 并 返回 给 gcdO0 函 数 ,如 图 3-9 所 示 。 


民 reuil32-by Lo 
fle Ed Packages Windows Heip 


EH 























图 3-9 编辑 函数 
或 者 ， 你 可 能 希望 创建 一 个 非常 类 似 于 gcd() 函 数 的 gcd2()， 那 么 你 可 以 使 用 下 面 的 代码 : 


> god2 <= tadit (ged) 


这 样 我 们 就 获得 了 gcd() 的 一 份 拷贝 。 可 以 在 它 的 基础 上 进行 修改 并 保存 到 gcd2()。 
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第 人间 
概率 统计 基础 


We rr gm eA Da ee TE en NE 


概率 论 是 研究 随机 性 或 不 确定 性 等 现象 的 数学 。 统 计 学 的 研究 对 象 是 反映 客观 现象 总 体 情 
况 的 统计 数据 ， 它 是 研究 如 何 测定 、 收 集 、 整 理 、 归 纳 和 分 析 这 些 数据 ， 以 便 给 出 正确 认识 的 
方法 论 科 学 。 概 率 论 与 统计 学 联系 密切 ， 前 者 也 是 后 者 的 理论 基础 。R 语言 是 用 于 统计 分 析 的 
语言 ， 在 使 用 它 时 不 可 避免 地 要 接触 到 许多 概率 论 或 统计 学 方面 的 知识 。 本 章 介绍 一 些 关 于 概 
率 论 与 统计 学 方面 的 内 容 ， 它 们 将 帮助 读者 更 好 地 利用 R 语言 进行 数据 分 析 工 作 。 


4.1 概率 论 的 基本 概念 


由 随机 实验 E 的 全 部 可 能 结果 所 组 成 的 集合 被 称 为 E 的 样本 空间 ， 记 为 S$。 例 如 ， 考 虑 将 一 
枚 均匀 的 硬币 投掷 三 次 ， 观 察 其 正面 “用 万 表 示 )、 反 面 〈 用 7 表示 ) 出 现 的 情况 。 则 上 述 掷 硬 
币 的 实验 之 样本 空间 为 : 
5 = {(TTT), (TTH), (THT), (HTT), (THH), (HTH), (HHT), (HHH)} 


随机 变量 (Random Variable) 是 定义 在 样本 空间 之 上 的 实验 结果 的 实 值 函 数 。 如 果 令 Y 表 示 
投掷 硬币 三 次 后 正面 朝 上 出 现 的 次 数 , 那么 Y 就 是 一 个 随机 变量 , 它 的 取 值 为 0(、1、2、3 之 一 。 
显然 Y 是 一 个 定义 在 样本 空间 8S 上 的 函数 ， 它 的 取 值 范围 就 是 集合 S 中 的 任何 一 种 情况 ， 而 它 的 
值 域 就 是 0~3 范围 内 的 一 个 整数 。 例 如 ，Y(TTT) = 0。 


因为 随机 变量 的 取 值 由 实验 结果 决定 ， 所 以 也 将 随机 变量 的 可 能 取 值 赋予 概率 。 例 如 ， 针 
对 随机 变量 Y 的 不 同 可 能 取 值 ， 其 对 应 的 概率 分 别 为 : 


P{Y = 0} = P{(TTT)} = = 
P{Y'= l= TH), (TAT)Y (HTT = 
P{Y = 2} = PE(THH), (HTH), (HHT)} = = 
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PIY = = PICOHH) -5 
对 于 随机 变量 X， 如 下 定义 的 函数 F: 
F(x) = P{X<x)}, 一 co <X < oo 

称 为 YX 的 累积 分 布 函数 ‘CDF，Cumulative Distribution Function)， 简 称 分 布 函数 。 因 此 ， 对 任 
一 给 定 的 实数 x， 分 布 函数 等 于 该 随机 变量 小 于 或 等 于 x 的 概率 。 

假设 agb， 由 于 事件 {X<a} 包 含 于 事件 {X<b}, 可 知 前 者 的 概率 F(a) 要 小 于 或 等 于 后 者 的 概 
率 F(b)。 换 句 话 说 ，F(x) 是 x 的 非 降 函 数 。 

如 果 一 个 随机 变量 最 多 有 可 数 多 个 可 能 取 值 ， 则 称 这 个 随机 变量 为 离散 型 的 。 对 于 一 个 离 
散 型 随机 变量 X， 我 们 定义 它 在 各 特定 取 值 上 的 概率 为 其 概率 质量 函数 (PMF,， Probability Mass 
Function)， 即 X 的 概率 质量 函数 为 : 

p(a) = P{X = a} 

概率 质量 函数 p(a) 在 最 多 可 数 个 a 上 取 正 值 ， 也 就 是 说 ， 如 果 X 的 可 能 取 值 为 xi,x2,…， 那 

么 p(xi)>0, 一 2 对 于 所 有 其 他 x， 则 有 p(x) = (0s 由 于 X 必 定 取 值 于 {xt x2,…】， 因此 有 : 


oo 


py p(xi)= 1 


i=ti 

离散 型 随机 变量 的 可 能 取 值 个 数 要 么 是 有 限 的 ， 要 么 是 可 数 无 限 的 。 除 此 之 外 ， 还 有 一 类 
随机 变量 ， 它 们 的 可 能 取 值 是 无 限 不 可 数 的 ， 这 种 随机 变量 就 被 称 为 连续 型 随机 变量 。 

对 于 连续 型 随机 变量 X 的 累积 分 布 函数 F(xz)， 如 果 存 在 一 个 定义 在 实数 轴 上 的 非 负 函数 
f(x)， 使 得 对 于 任意 实数 x， 有 下 式 成 立 : 

ry=| fdt 

则 称 f(x) 为 X 的 概率 密度 函数 PDF，Probability Density Function)。 显 然 ， 当 概率 密度 函数 存在 
的 时 候 ， 累 积分 布 函 数 是 概率 密度 函数 的 积分 。 

由 定义 知道 ， 概 率 密 度 函 数 f(x) 具 有 如 下 性 质 : 


® f(x)>0 
® f/f)dx=1 
。 对 于 任意 实数 a 和 b， 且 a<b， 则 根据 牛顿 - 莱 布 尼 攻 公式 有 : 


b 
Pp{agX<b} = F(b) — F(a) = ] fdx 
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在 上 式 中 令 a = b， 可 以 得 到 : 
PP 令 二 节 = rear 二 前 
也 就 是 说 ， 对 于 一 个 连续 型 随机 变量 ， 它 取 任 何 固定 值 的 概率 都 等 于 0。 因 此 ， 对 于 一 个 连续 
型 随机 变量 ， 有 : 
PX <al= Pia}= F(a)= [ f(x)dx 

概率 质量 函数 和 概率 密度 函数 的 不 同 之 处 就 在 于 : 概率 质量 函数 是 对 离散 随机 变量 定义 的 ， 

其 本 身 就 代表 该 值 的 概率 ; 而 概率 密度 函数 是 对 连续 随机 变量 定义 的 ， 且 它 本 身 并 不 是 概率 ， 
只 有 对 连续 随机 变量 的 概率 密度 函数 在 某 区 间 内 进行 积分 后 才能 得 到 概率 。 


当 随 机 变量 X 和 7 相互 独立 时 ， 从 它们 的 联合 分 布 求 出 +Y 的 分 布 常常 是 十 分 重要 的 。 假 
如 X 和 Y 是 相互 独立 的 连续 型 随机 变量 , 其 概率 密度 函数 分 别 为 有 和气 , 那么 X 十 Y 的 分 布 函数 可 
以 如 下 得 到 : 


Psr(a = PIX +Y<a} = | | fe Cf axdy 


Xi+y<a 


= 人 [fri oddray 3 上 厂 Feodrfood 


= me-D60)dy 


可 见 分 布 函 数 Fxyy 是 分 布 函数 所 和 (分 别 表示 和 Y 的 分 布 函 数 ) 的 卷 积 。 通 过 对 上 式 求 
导 ， 我 们 还 可 以 得 到 X 十 了 的 概率 密度 函数 及 jy 如 下 : 


Jr = -Di = Widy 


= [ hi dy 


设 随机 变量 X 和 Y 相 互 独立 ，X~NGa, oz)，Y~NG2z co2)， 则 由 上 述 结论 还 可 以 推 得 : 
Z =X 二 Y 仍 然 服 从 正 态 分 布 ， 且 有 Z~N(a + J2,02? 十 02)。 该 结论 还 能 推广 到 n 个 独立 正 态 随 
机 变量 之 和 的 情况 。 即 如 果 X~N (pi, 呈 )， 其 中 i = 1,2,…,n， 且 它们 相互 独立 ， 则 它们 的 和 
Z = 二 名 十 十 … 十 各 仍然 服从 正 态 分 布 且 有 Z~N(j 十 2 十 十 yO 十 2 十 … 十 7)。 更 
一 般 地 ， 可 以 证 明 有 限 个 相互 独立 的 正 态 随机 变量 的 线性 组 合 仍 然 服 从 正 态 分 布 。 
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4.2 ”随机 变量 数字 特征 


随机 变量 的 累积 分 布 函数 、 离 散 型 随机 变量 的 概率 质量 函数 或 者 连续 型 随机 变量 的 概率 密 
度 函 数 都 可 以 较为 完整 地 对 随机 变量 加 以 描述 。 除 此 之 外 ， 一 些 常数 也 可 以 被 用 来 描述 随机 变 
量 的 某 一 特征 ， 而 且 在 实际 应 用 中 ， 人 们 往往 对 这 些 常数 更 感 兴趣 。 由 随机 变量 的 分 布 所 确定 
的 ， 能 刻画 随机 变量 某 一 方面 特征 的 常数 被 称 为 随机 变量 的 数字 特征 。 本 节 主 要 介绍 期 望 和 方 
兰 这 两 个 重要 的 数字 特征 。 
4.2.1 期 望 

概率 论 中 一 个 非常 重要 的 概念 就 是 随机 变量 的 期 望 。 如 果 X 是 一 个 离散 型 随机 变量 ， 并 具 
有 概率 质量 函数 : 

p(Xxx) = P{X = Xp k= 二 

如 果 级 数 


CoD 


» Xxp (Xx) 


k=1 


绝对 收敛 ， 则 称 上 述 级 数 的 和 为 X 的 期 望 ， 记 为 BE[Z， 即 ; 


oo 


EDX] = 》 xp 


k=1 
换言之 ，X 的 期 望 就 是 X 所 有 可 能 取 值 的 一 个 加 权 平 均 ， 每 个 值 的 权重 就 是 X 取 该 值 的 概率 。 
如 果 X 是 一 个 连续 型 随机 变量 ， 其 概率 密度 函数 为 f(x)， 若 积分 


| (x)dx 


绝对 收敛 ， 则 称 上 述 积分 的 值 为 随机 变量 X 的 数学 期 望 ， 记 为 ECX)。 即 : 
scO= | 加 FT 
定理 : 设 Y 是 随机 变量 X 的 函数 : Y = g(X)，g 是 连续 函数 。 如 果 X 是 离散 型 随机 变量 ， 它 
的 概率 质量 函数 为 p(xx) = P{X = xi 大 = 1,2,…， 若 


这 g(xXk)p(Xk) 


k=1 


绝对 收敛 ， 则 有 : 
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ECY) = E[gCO] = > ge)p(x) 


k=1 


如 果 X 是 连续 型 随机 变量 ， 它 的 概率 密度 函数 为 1(x)， 若 
| gf dx 
绝对 收敛 ， 则 有 : 
EQ) = EleCO1= | scoreodx 


该 定理 的 重要 意义 在 于 当 求 E(Y) 时 ， 不 必 算出 Y 的 概率 质量 函数 (或 概率 密度 函数 )， 而 只 
需要 利用 X 的 概率 质量 函数 或 概率 密度 函数 ) 即 可 。 我 们 不 具体 给 出 该 定理 的 证 明 ， 但 由 此 
定理 可 得 如 下 推论 。 


推论 : 车 a 和 b 是 常数 ， 则 E[aX 十 b] = aE[X] 二 b。 
证 明 : (此 处 仅 证 明 离 散 的 情况 ， 连 续 的 情况 与 此 类 似 。) 


Elax +b] = > (ax + b)p(x) = 


XxX:p(x)>0 


a xp(x)+b > p(x) =aE[X]+b 


Xx:p(x)>0 X:D(X)>0 
“于 是 推论 得 证 。 
4.2.2 方差 
方差 (Variance) 是 用 来 度量 随机 变量 和 其 数学 期 望 之 间 偏 离 程度 的 量 。 


定义 : 设 X 是 一 个 随机 变量 , Xx 的 期 望 k = E(X), 若 E[(X 一 1)?] 存 在 , 则 称 E[(X 一 1)?] 为 X 的 
方差 ， 记 为 D(X) 或 Var(X)， 即 : 


D(X) = Var(X) = E{[X — E(X)]’} 
在 应 用 上 还 引入 量 YD(X)， 记 为 o(X)， 称 为 标准 差 或 均 方 差 。 


随机 变量 的 方差 是 刻画 随机 变量 相对 于 期 望 值 的 散布 程度 的 一 个 度量 。 下 面 导出 Var(X) 的 
男 一 公式 ; 





Var(X) = E[(X —/)] = PY — HM)*p(x) = Ey, 一 2Ux + 1 )p(x) 
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= > x2p(x) 一 21 xp(x) + p(x) 


= E[X?]—2p +p = EIX*]—p 
也 即 : 
Var(X) = E[X?] ~ (E[X])? 

可 见 , X 的 方差 等 于 X? 的 期 望 减 去 Xx 期望 的 平方 。 这 也 是 实际 应 用 中 最 方便 的 计算 方差 的 方 
法 ， 而 且 上 述 结论 对 于 连续 型 随机 变量 的 方差 也 成 立 。 

随机 变量 X 的 期 望 8[X] 也 被 称 为 X 的 均值 或 者 一 阶 矩 Moment)， 方 差 D(X) 是 X 的 二 阶 中 心 
和 矩 。 更 广泛 地 ， 我 们 有 如 下 概念 ; 

若 E[X*] 存 在 ， 其 中 k = 1,2,…， 则 称 其 为 X 的 k 阶 原点 矩 ， 简 称 k 阶 和 矩 。 根 据 之 前 给 出 的 定 
理 ， 亦 可 知 : 


BR]= Y xp) 
Xx:p(xX)>0 


若 E{[X 一 E(X)]*} 存 在 ， 其 中 k = 2,3,…， 则 称 其 为 X 的 k 阶 中 心 矩 。 

最 后 ， 我 们 给 出 关于 方差 的 几 个 重要 性 质 。 

。 设 是 C 常 数 ， 则 D(C) = 0; 
设 X 是 随机 变量 ，C 是 常数 ， 则 有 : 

D(CX) = C2D(X), D(X +C) = D(X): 
设 X、Y 是 两 个 随机 变量 ， 则 有 : 
D(X +Y)= D(X) +D(Y) +2E{[X — EC(X)]IY — EC(Y)]} 
特别 地 ， 如 果 X、Y 彼 此 独立 ， 则 有 : 
D(X +Y)= D(X) +D(Y) 
这 一 性 质 还 可 以 推广 到 任意 有 限 多 个 相互 独立 的 随机 变量 之 和 的 情况 。 
D(X) = 0 的 充 要 条 件 是 X 以 概率 1 取 常 数 E(X)， 即 : 
P{X = E(X)}=1 

前 三 个 性 质 请 读者 自行 证 明 ， 最 后 一 个 性 质 的 证 明 我 们 将 在 本 章 的 后 续篇 幅 中 给 出 。 
设 随机 变量 X 具 有 数学 期 望 E(X) = hy， 方 差 D(X) = o? 基 0， 记 : 
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则 X* 的 数学 期 望 为 0， 方 差 为 1， 并 称 X* 为 X 的 标准 化 变量 。 
证 明 : 


EQ) = 二 BC- 内 ==ECO- 癌 =0 


= 2 
DA) =E(X"") [EC =E (SY | 
i 02 
= 天 EL 一 有 站 
根据 4.1 节 所 给 出 的 结论 ， 若 Xi:~N (ni,o7)， 其 中 i = 1,2,…,n， 且 相互 独立 ， 则 它们 的 线性 
组 合 : CjXi 十 C2Xz 十 … 十 CnXn， 仍 服从 正 态 分 布 ， 其 中 C1,C2,…, Cn 是 不 全 为 0 的 常数 。 于 是 ， 
由 数学 期 望 和 方差 的 性 质 可 知 : 


n n 
Co + CaXa + et CnXn~N > Cui >》 co 


i=1 i=1 


4.3 ”基本 概率 分 布 模型 


概率 分 布 是 概率 论 的 基本 概念 之 一 ， 它 被 用 以 表述 随机 变量 取 值 的 概率 规律 。 广 义 上 ， 概 
率 分 布 是 指称 随机 变量 的 概率 性 质 ;， 从 狭义 上 来 说 ， 它 是 指 随机 变量 的 概率 分 布 函 数 (PDF， 
Probability Distribution Function)， 或 称 累积 分 布 函数 。 可 以 将 概率 分 布 大 致 分 为 离散 和 连续 两 
种 类 型 。 


4.3.1 离散 概率 分 布 


。 伯 努 利 分 布 
伯 努 利 分 布 (Bernoulli) 又 称 两 点 分 布 。 设 实验 只 有 两 个 可 能 的 结果 : 成 功 〈 记 为 1) 与 失 
败 〈 记 为 0)， 则 称 此 实验 为 伯 努 利 实验 。 如 果 一 次 伯 努 利 实验 成 功 的 概率 为 p， 则 其 失败 的 概 
率 就 为 1 一 p， 而 一 次 伯 努 利 实 验 成 功 的 次 数 就 服从 一 个 参数 为 p 的 伯 努 利 分 布 。 伯 努 利 分 布 的 
P(X=k)=p*(1 -pr*, k=0,1 


显然 ， 对 于 一 个 随机 实验 ， 如 果 它 的 样本 空间 只 包含 两 个 元 素 ， 即 5S = {e1,e2}， 我 们 总 能 
在 S 上 定义 一 个 服从 伯 努 利 分 布 的 随机 变量 
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2 三 el 
ee 一 6 


== 

来 描述 这 个 随机 实验 的 结果 。 满 足 伯 努 利 分 布 的 实验 有 很 多 ， 人 例如， 投掷 一 枚 硬币 观察 其 结果 
是 正面 还 是 反面 ， 或 者 对 新 生 婴 儿 的 性 别 进行 登记 ， 等 等 。 

可 以 证 明 ， 如 果 随 机 变量 X 服 从 伯 努 利 分 布 ， 那 么 它 的 期 望 等 于 p， 方 差 等 于 p(1 一 p)。 

e 二 项 分 布 

考察 由 ?次 独立 实验 组 成 的 随机 现象 ， 它 满足 以 下 条 件 : 重复 n 次 随机 实验 ， 且 这 n 次 实验 
相互 独立 ; 每 次 实验 中 只 有 两 种 可 能 的 结果 ， 而 且 这 两 种 结果 发 生 与 否 互相 对 立 ， 即 每 次 实验 
成 功 的 概率 为 p， 失 败 的 概率 为 1 -p。 事 件 发 生 与 否 的 概率 在 每 一 次 独立 实验 中 都 保持 不 变 。 
显然 ， 这 一 系列 实验 构成 了 一 个 n 重 伯 努 利 实验 。 重 复 进行 n 次 独立 的 伯 努 利 实 验 ， 实 验 结果 所 
满足 的 分 布 就 被 称 为 二 项 分 布 (Binomial Distribution)。 当 实验 次 数 为 1 时 ， 二 项 分 布 就 是 伯 努 
利 分 布 。 

设 X 表 示 n 次 独立 重复 实验 中 成 功 出 现 的 次 数 ， 显 然 X 是 可 以 取 0,1,…,n 等 n 十 1 个 值 的 离散 
随机 变量 ， 则 当 X = k 时 ， 它 的 概率 质量 函数 表示 为 : 


P(X=k)= GY pL— pt 


在 R 中 ， 可 以 使 用 下 列 语句 绘制 一 幅 二 项 分 布 的 概率 质量 函数 图 ， 执 行 结 果 如 图 4-1 中 的 
左上 图 所 示 。 其 中 函数 的 具体 用 法 ， 本 书 将 在 后 面 进行 介绍 。 


> curve(dbinom(x, p = 0.5, size = 10), from = 0, to = 10, 
+ type = "s", main = "Binomial") 


很 容易 证 明 ， 服 从 二 项 分 布 的 随机 变量 X 以 np 为 期 望 ， 以 np(1 一 p) 为 方差 。 
e 负 二 项 分 布 
如 果 伯 努 利 实验 独立 地 重复 进行 ， 每 次 成 功 的 概率 为 p，0 < p < 1， 实 验 一 直 进 行 到 一 共 
累积 出 现 了 7 次 成 功 时 停止 实验 , 则 实验 失败 的 次 数 服从 一 个 参数 为 (r,p) 的 负 二 项 分 布 。 可 见 ， 
负 二 项 分 布 与 二 项 分 布 的 区 别 在 于 : 二 项 分 布 是 固定 实验 总 次 数 的 独立 实验 中 , 成 功 次 数 k 的 分 
布 ， 而 负 二 项 分 布 是 累积 到 成 功 r 次 时 即 终止 的 独立 实验 中 ， 实 验 总 次 数 的 分 布 。 如 果 令 X 表 示 
实验 的 总 次 数 ， 则 
—1 
P(X =n) =( 1)jzra-pr n=r,r++ 1 
上 式 之 所 以 成 立 是 因为 , 要 使 得 第 n 次 实验 时 正好 是 第 r 次 成 功 , 那么 前 n 一 1 次 实验 中 有 r 一 1 次 
成 功 ， 且 第 n 次 实验 必然 是 成 功 的 。 前 n 一 1 次 实验 中 有 r 一 1 次 成 功 的 概率 是 : 
n—1 一 Nn-r 
i 1 )p 1(1—p) 
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iin 


而 第 ?次 实验 成 功 的 概率 为 p。 因 为 这 两 件 事 相互 独立 ， 将 两 个 概率 相 乘 就 得 到 前 面 给 出 的 概率 
质量 函数 。 而 且 我 们 还 可 以 证 明 如 果实 验 一 直 进行 下 去 ， 那 么 最 终 一 定 能 得 到 7 次 成 功 ， 即 有 1: 


pe 


若 随 机 变量 X 的 概率 质量 函数 由 前 面 的 式 子 给 出 ， 那 么 称 X 为 参数 (r,p) 的 负 二 项 随机 变量 。 
负 二 项 分 布 又 被 称 为 帕斯卡 分 布 。 特 别 地 ,参数 为 (1,p) 的 负 二 项 分 布 就 是 下 面 将 要 介绍 的 几何 
分 布 。 


在 R 中 ， 可 以 使 用 下 列 语句 绘制 一 幅 负 二 项 分 布 的 概率 质量 函数 图 ， 执 行 结果 如 图 4-1 中 
bm 


d binom(x, size = 10, prob = 0.75), from = 0, to= 10, 
‘avimain = og ee Bincomial"™") 
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图 4-1 部 分 离散 概率 分 布 的 PMF 图 
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可 以 证 明 ， 服 从 负 二 项 分 布 的 随机 变量 X 之 期 望 等 于 r/p， 而 它 的 方差 等 于 r(1 一 p)/p?。 
e 几何 分 布 
考虑 独立 重复 实验 ， 每 次 的 成 功率 为 p，0 < p < 1， 一 直 进 行 ， 直 到 实验 成 功 。 如 果 令 X 表 
示 需 要 实验 的 次 数 ， 那 么 : 
P(CX=7m=(1 一 DID， n=1,2,. 


上 式 成 立 是 因为 要 使 得 X 等 于 n， 充 分 必要 条 件 是 前 n 一 1 次 实验 失败 而 第 mn 次 实验 成 功 。 又 因为 
假定 各 次 实验 都 是 相互 独立 的 ， 于 是 得 到 上 式 成 立 。 


由 于 





2D PED=pY -D1 


7 一 工 n= 
这 说 明 实验 最 终 会 出 现成 功 的 概率 为 1。 若 随机 变量 的 概率 质量 函数 由 前 式 给 出 ， 则 称 该 随机 
变量 是 参数 为 p 的 几何 随机 变量 。 
在 R 中 ， 可 以 使 用 下 列 语句 绘制 一 幅 几 何 分 布 的 概率 质量 函数 图 ， 执 行 结果 如 图 4-1 中 的 
左下 图 所 示 。 


> turveldgeom(lx, prob = 0.2), from = Ur to TO0, 
ttype = "smain = "Geometric") 


可 以 证 明 ， 服 从 几何 分 布 的 随机 变量 X 之 期 望 等 于 1/p， 而 它 的 方差 等 于 (1 一 p)/p?。 

。 泊 松 分 布 

最 后 ， 我 们 来 考虑 男 外 一 种 重要 的 离散 概率 分 布 一 一 泊 松 (Poisson) 分 布 。 单 位 时 间 、 单 
位 长 度 、 单 位 面积 、 单 位 体积 中 发 生菜 一 事件 的 次 数 常 可 以 用 泊 松 分 布 来 刻画 ， 例如， 可 以 认 
为 某 段 高 速 公 路 上 一 年 内 的 交通 事故 数 和 某 办 公 室 一 天 中 收 到 的 电话 数 近似 服从 泊 松 分 布 。 泊 
松 分 布 可 以 被 看 成 二 项 分 布 的 特殊 情况 。 在 二 项 分 布 的 伯 努 利 实 验 中 ,如果 实验 次 数 n 很 大 ， 二 
项 分 布 的 概率 p 很 小 , 且 乘 积 4 = np 比较 适中 , 则 事件 出 现 的 次 数 的 概率 可 以 用 泊 松 分 布 来 逼近 。 
事实 上 ， 二 项 分 布 可 以 看 作 泊 松 分 布 在 离散 时 间 上 的 对 应 物 。 泊 松 分 布 的 概率 质量 函数 为 : 
E44AF 

k! 

其 中 ， 参 数 4 是 单位 时 间 (或 单位 面积 ) 内 随机 事件 的 平均 发 生 率 。 

接 下 来 就 利用 二 项 分 布 的 概率 质量 函数 以 及 微 积 分 中 一 些 关 于 数列 极限 的 知识 来 证 明 上 述 


公式 。 



































P(X =k) = 





和 a ce 中 k 2 n—k 
la P= = (pr 
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k 


-ma (1 
k n = 
-Im [ze (t)(1-Y) (9 


oe 


一 工 一 ee 人 < 


n—k 





结论 得 证 。 
在 R 中， 可 以 使 用 下 列 语句 绘制 一 幅 几 何 分 布 的 概率 质量 函数 图 ， 执 行 结果 如 图 4-1 中 的 
右 下 图 所 示 。 


> curve (dpois(x, lambda = 3), from = | to = ls 1 
+ tybe = Mey main ls WpoOlSSon") 


服从 泊 松 分 布 的 随机 变量 ， 其 期 望 和 方差 都 等 于 参数 A。 
4.3.2 连续 概率 分 布 
e 均匀 分 布 
均匀 分 布 是 最 简单 的 连续 概率 分 布 。 如 果 连 续 型 随机 变量 X 具 有 如 下 概率 密度 函数 : 
1 
CC a<x<b 
0, 其 他 
则 称 X 在 区 间 (a,b) 上 服从 均匀 分 布 ， 记 为 X~U(a,b)。 


在 区 间 (a,b) 上 服从 均匀 分 布 的 随机 变量 XxX， 具有 如 下 意义 的 等 可 能 性 ， 即 它 落 在 区 间 (a,b) 
中 任意 长 度 的 子 区 间 内 的 可 能 性 是 相同 的 。 或 者 说 它 落 在 区 间 (a,b) 的 子 区 间 内 的 概率 只 依赖 于 
子 区 间 的 长 度 ， 而 与 子 区 间 的 位 置 无 关 。 


由 概率 密度 函数 的 定义 式 可 得 服从 均匀 分 布 的 随机 变量 X 的 累积 分 布 函 数 为 : 


0, x<a 
x—a 
F(X)=)Fa <x<b 





J; x>b 


如 果 随 机 变量 X 在 (a,b) 上 服从 均匀 分 布 ， 那 么 它 的 期 望 就 等 于 该 区 间 的 中 点 的 值 ， 即 
(a 十 b)/2。 而 它 的 方差 则 等 于 (b 一 a)?/12。 
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。 指数 分 布 
泊 松 过 程 的 等 待 时 间 服 从 指数 分 布 。 若 连续 型 随机 变量 X 的 概率 密度 函数 为 : 
Ae-1x, x>0 


0, 其 他 


其 中 ，4 > 0 为 常数 ， 则 称 X 服 从 参数 为 4 的 指数 分 布 。 
在 R 中 ,可 以 使 用 下 列 语句 绘制 一 幅 指 数 分 布 的 概率 密度 函数 图 , 执行 结果 如 图 4-2 所 示 。 


f(x)= 








0 1 2 3 4 5 
图 4-2 指数 分 布 的 PDF 图 


由 前 面 给 出 的 概率 密度 函数 ， 易 得 满足 指数 分 布 的 随机 变量 X 的 分 布 函数 如 下 : 
1—-e* x>0 


F(X) = 0 其 他 
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特别 地 ， 服 从 指数 分 布 的 随机 变量 X 具 有 以 下 这 样 一 个 特别 的 性 质 : 对 于 任意 s, 上 > 0, 有 : 
P{X>s+tlX>s}= P{X >t} 

这 是 因为 : 
P{(X > s+t) N(xX > s)} 

P{X > s} 
_ PN>5+ 1 一 R(s+0D) 
~ P{X>s} 1-F(s) 

@-A(s+t) 


| 


P{X>s+tlX>s}= 





上 述 这 个 性 质 被 称 为 无 记忆 性 。 如 果 X 是 菜 一 元 件 的 寿命 ， 那 么 这 个 性 质 表明 已 知 元 件 
使 用 了 s 小 时 ， 它 总 共 能 用 至 少 s + t 小 时 的 条 件 概率 ， 与 从 开始 使 用 时 算 起 它 至 少 能 使 用 t 小 时 
的 概率 相等 。 这 就 是 说 ， 元 件 对 它 已 使 用 过 s 小 时 是 没有 记忆 的 。 指 数 分 布 的 这 一 特性 也 正 是 其 
应 用 广泛 的 原因 所 在 。 

如 果 随 机 变量 X 服 从 以 ) 为 参数 的 指数 分 布 ， 那 么 它 的 期 望 就 等 于 1/A， 而 方差 等 于 期 望 的 
平方 ， 即 1/X2。 

。 正 态 分 布 

高 斯 分 布 最 早 是 由 数学 家 棣 莫 弗 在 求 二 项 分 布 的 渐 近 公式 中 得 到 的 。 大 数学 家 高 斯 在 研究 
， 测 量 误差 时 从 另 一 个 角度 导出 了 它 。 后 来 ， 拉 普 拉 斯 和 高 斯 都 对 其 性 质 进行 过 研究 。 一 维 高 其 
分 布 的 概率 密度 函数 为 


_x-1)? 
e 20 (-ocoo <X< +oo) 





1 
p(x) = i 


上 式 中 第 一 个 参数 4 是 遵从 高 斯 分 布 的 随机 变量 的 均值 ， 第 二 个 参数 go 是 此 随机 变量 的 标准 差 ， 
所 以 高 斯 分 布 可 以 记 作 Gaussian(1u,o)。 高 斯 分 布 又 称 正 态 分 布 ,但 需要 注意 的 是 此 时 的 记 法 应 
写作 N(1,o?)， 这 里 go? 也 就 是 随机 变量 的 方差 。 

可 以 将 正 态 分 布 函数 简单 理解 为 “计算 一 定 误差 出 现 概 率 的 函数 ” 例如 某 工厂 生产 长 度 为 
L 的 钉子 ， 然 而 由 于 制造 工艺 的 原因 ， 实 际 生产 出 来 的 钉子 长 度 会 存在 一 定 的 误差 d， 即 钉子 的 
长 度 在 区 间 (L 一 qd,L 十 qd) 中 。 那 么 如 果 想 知道 生产 出 的 钉子 中 某 特定 长 度 钉 子 的 概率 是 多 少 ， 
就 可 以 利用 正 态 分 布 函数 来 计算 。 

设 上 例 中 生产 出 的 钉子 长 度 为 La, 则 生产 出 长 度 为 [1 的 钉子 的 概率 为 p(L1), 套用 上 述 公式 ， 
其 中 4 取 L，o 的 取 值 与 实际 生产 情况 有 关 ， 则 有 : 

1 er 
b= 2 
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设 误 差 x = Li 一 L， 则 : 
x2 
e 207 





p00) = 

当 参 数 g 取 不 同 值 时 ， 上 式 中 pCo) 的 值 曲线 如 图 4.3 所 示 。 可 见 ， 正 态 分 布 描述 了 一 种 概 

率 随 误差 量 增加 而 逐渐 北城 的 统计 模型 ， 正 态 分 布 是 概率 论 中 最 重要 的 一 种 分 布 ， 经 常用 来 描 

述 测量 误差 、 随 机 噪声 等 随机 现象 。 遵从 正 态 分 布 的 随机 变量 的 概率 分 布 规律 为 : 取 / 邻 近 的 值 

的 概率 大 ， 而 取 离 1 越 远 的 值 的 概率 越 小 ， 参 数 o 越 小 ， 分 布 越 集中 在 4 附近 ，o 越 大 ， 分 布 越 分 

散 。 通 过 前 面 的 介绍 可 知 ， 在 高 斯 分 布 中 ， 参 数 o 越 小 ， 曲 线 越 高 、 越 央 ，o 越 大 ， 曲 线 越 低 、 
越 平缓 。 








图 4-3 ” 正 态 分 布 


从 函数 的 图 像 中 也 很 容易 发 现 ， 正 态 分 布 的 概率 密度 函数 是 关于 /对 称 的 ， 且 在 /处 达到 最 
大 值 ， 在 正 〈 负 ) 无 穷 远 处 取 值 为 0。 它 的 形状 是 中 间 高 两 边 低 的 ， 图 像 是 一 条 位 于 x 轴 上 方 的 
钟 形 曲 线 。 当 pj = 0，o? = 1 时 ， 称 为 标准 正 态 分 布 ， 记 作 N(0,1)。 


4.3.3 ”使 用 内 骨 分 布 
R 已 经 为 常用 的 概率 分 布 模型 提供 了 强 有 力 的 支持 ， 掌 握 这 些 方法 可 以 使 用 户 在 进行 统计 
分 析 时 事半功倍 ， 得 心 应 手 。 


总 的 来 说 ，R 中 提供 了 四 类 有 关 统 计 分 布 的 函数 : 密度 函数 、( 累 积 ) 分 布 函 数 、 分 位 数 函 
数 、 随 机 数 函数 《或 称 随 机 数 产生 函数 )。 它 们 都 与 分 布 的 英文 名 称 〈 或 其 缩写 ) 相对 应 。 表 
4-1 中 列举 了 R 中 常用 的 15 种 分 布 的 中 英文 名 称 、R 中 的 函数 名 和 函数 中 的 参数 选项 。 我 们 在 
前 面 的 某 些 例子 中 已 经 体验 过 了 R 中 为 这 些 分 布 所 提供 的 函数 。 对 于 所 给 的 分 布 函数 名 ， 加 前 
缀 “d”( 代 表 分 布 ) 就 得 到 相应 的 分 布 函数 〈 如 果 是 连续 函数 ， 则 指 PDF; 对 于 离散 分 布 ， 则 
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指 PMF); 加 前 缀 “p”( 代 表 累 积分 布 函 数 或 概率 〉 就 得 到 相应 的 CDF; 加 前 缀 “q”( 代 表 分 
位 数 函数 ) 就 得 到 相应 的 分 位 数 函 数 ， 加 前 级 “r”( 代 表 随 机 模拟 就 得 到 相应 的 随机 数 产 生 
函数 。 而 且 这 四 类 函数 的 第 一 个 参数 是 有 规律 的 。 


表 4-1 R 中 常用 的 分 布 类 型 举例 


分 布 名 称 8 函数 名 参数 选项 
贝塔 分 布 (beta) shapel, shape2 
二 项 分 布 (binomial) binom size, prob 
柯 西 分 布 (cauchy) auch location=0，scale=1 
指数 分 布 (exponential) 
珈 马 分 布 gamma) 
几何 分 布 (geometric) 
超 几 何 分 布 (hypergeometric) 
对 数 正 态 分布 lognormal) 


rate 

shape, scale=1 
prob 

m, n, k 


meanlog=0,， sdlog=1 


多 项 分 布 (multinomial) size, prob 

正 态 分 布 (normal) mean=0，sd=1 
负 二 项 分 布 (negative binomial) size, prob 

泊 松 分 布 (poisson) lambda 

均匀 分 布 (uniform) unif min=0，max=1 
卡 方 分 布 (chi-squared) chisp df, ncp 


虫口 分 布 (logistic) g 
具体 来 说 ， 如 果 R 中 分 布 的 函数 名 为 funce， 则 形 如 dfunc 的 函数 就 提供 了 相应 的 概率 分 布 

函数 ， 而 且 它 的 第 一 个 参数 一 般 为 x，x 是 一 个 数值 向 量 。 此 类 函数 的 调用 格式 如 下 : 
dtunelrr pl Dlr 
类 似 地 ， 形 如 pfunc 的 函数 提供 了 相应 的 累积 分 布 函数 ， 它 的 第 一 个 参数 一 般 为 qg，q 是 一 个 数 
值 向 量 。 此 类 函数 的 调用 格式 为 : 
Punetaa DLs Bar A 

形 如 qfunc 的 函数 提供 了 相应 的 分 位 数 函 数 ， 其 第 一 个 参数 一 般 为 p，p 为 由 概率 构成 的 向 量 ， 
此 类 函数 的 调用 格式 为 : 
qfunoe(ps Pl Eo) 

形 如 rfunc 的 函数 提供 了 相应 的 随机 数 产生 函数 ， 其 第 一 个 参数 一 般 为 n， 用 以 指示 生成 数据 的 
个 数 。 但 也 有 特例 ， 例 如 rhyper 和 rwilcox 的 第 一 个 参数 为 nn， 这 两 个 分 布 类 型 在 表 4-1 中 并 
未 列 出 。 此 类 函数 的 调用 格式 为 : 


ye bo od om 


location=0 ，scale=1 
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上 述 各 表达 式 中 的 p1,p2,… 对 应 于 具体 分 布 的 参数 值 ， 即 表 4-1 中 所 列 的 各 参数 选项 。 在 实践 
中 ， 读 者 可 查阅 R 帮助 文档 中 的 说 明 来 了 解 更 多 细节 。 


最 后 我 们 通过 几 个 例子 来 简单 演示 一 下 它们 的 使 用 。 首先 模拟 生成 10 个 服从 标准 正 态 分 布 
的 随机 数 可 以 使 用 和 如 下 sb 
> rnorm(10) i 
[1] 0.23478908 -1.04106797 让 341 0.56621874 0.21183802 
[6] -0.41287121 -0.03715736 0.49791239 0.19461168 -0,80418611 

在 下 面 这 段 示 例 代 码 中 , 我 们 模拟 生成 1000 个 服从 标准 正 态 分 布 的 随机 数 ， 并 通过 这 些 数 
据点 绘制 出 相应 的 概率 密度 函数 图 。 显 然 其 结果 应 当 是 一 个 类 似 钟 形 的 图 案 。 然 后 再 通过 标准 
正 态 分 布 的 概率 密度 函数 衣 接合 图 ， bia dll 


> normal.pop <- rnorm(1000) 
> par(mfrow = c(1,2)) 









执行 上 述 代码 ， 其 运行 结果 如 图 4-4 所 示 。 


标准 正 态 分 布 (模拟 } 标准 正 态 分 布 (标准 ) 
8 3 
a 3 
全 IE 
Eg 二 名 
[a 5 


01 
01 


Wd 


-4 2 0 2 4 4 -2 0 2 4 
N = 1000 Bandwidth = 0.2194 x 


图 4-4 绘图 结果 


累积 分 布 函数 通常 是 可 逆 的 ， 这 一 点 非常 有 用 。 前 面 介 绍 的 形 如 qfunc 的 分 位 数 函 数 其 实 
就 可 以 理解 成 相应 累积 分 布 函数 的 反 函 数 。 分 位 数 的 意义 在 本 章 后 面 还 有 更 详细 的 介绍 。 此 处 
我 们 仅 就 分 位 数 函数 是 累积 分 布 函数 的 反 函 数 这 一 点 帮助 读者 建立 一 个 初步 的 感性 认识 。 为 了 
说 明 这 一 点 , 不 妨 以 二 项 分 布 为 例 ， 如 下 在 随机 变量 从 0 到 10 取 值 的 情况 下 ， 绘 制 其 概率 质量 
函数 ， 结 果 如 图 4-5 中 的 左 图 所 示 。 
RY Kx QD 
> pmf <- dbinom(x1, 10, 0.5) 


\ 
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te 


» Bmf 
[4] 0.0D009765625 0.0097656250 0.0439453125 0.11 7171815000 O020507181250 
[8] 0.2460937500 ©,.2050791250 0 .111918750Q00 0.0439453125 O0007656250 
Dooosy6s6es 
ot mE mi CyBeo sm hh") 


然后 再 生成 其 相应 的 累积 分 布 函数 ， 并 绘制 出 图 形 ， 其 结果 如 图 4-5 中 的 右 图 所 示 。 


> Cdf < Ooinom(xl, Lid, 0.5) 
> Af 
[wouQe976s625 O00 A2L815. 0。 0546875000 DLLiar S0000 0 316953 L250 
[6] 0.6230468750 0.8281250000 0.9453125000 0. 9892578125 0.9990234375 
(人 人 "L0000000000 
> plot(ear ~ xlr type 二 sn) 


最 后 将 生成 的 累积 分 布 函数 的 函数 值 作为 输入 参数 传递 给 相应 的 分 位 数 函 数 ， 易 见 所 得 之 
结果 为 累积 分 布 函数 的 自 变 量 取 值 , 即 证 明 分 位 数 函数 本 质 上 就 是 相应 累积 分 布 函数 的 反 函 数 。 


> inverse Cd < qbinom(cadf, i100, 0.5) 
> inverse caf 
ee Re ss 


有 兴趣 的 读者 也 可 尝试 用 图 形 来 表达 上 述 函 数 关 系 ， 结 果 将 更 加 显 性 化 。 
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图 4-5 二 项 分 布 的 PMF 和 CDF 
概率 分 布 是 对 现实 世界 中 客观 规律 的 高 度 抽象 和 数学 表达 ， 它 们 在 统计 分 析 中 无 处 不 在 。 
R 中 所 提供 的 这 些 用 以 实现 和 模拟 概率 分 布 的 函数 在 实际 应 用 中 发 挥 了 极 大 的 作用 ， 本 书 的 后 
续 内 容 中 我 们 还 将 频繁 地 使 用 它们 。 
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4.4 大 数 定理 及 其 意义 


法 国 数学 家 浦 丰 曾经 做 过 一 个 非常 著名 的 掷 硬币 实验 ， 发 现 硬币 正面 出 现 的 次 数 与 反面 出 
现 的 次 数 总 是 十 分 相近 的 ， 投 掷 的 次 数 愈 多 ， 正 反面 出 现 的 次 数 便 您 接近 。 其 实 ， 历 史上 很 多 



































数学 家 都 做 过 类 似 的 实验 ， 如 表 4-2 所 示 。 从 中 不 难 发 现 ， 实 验 次 数 您 多 ， 其 结果 便 愈 接近 在 
一 个 常数 附近 摆动 。 


表 4-2 ” 找 硬 币 实验 


投掷 次 数 (n) 正面 朝 上 次 数 (m) 


1061 






正如 恩格斯 所 说 的 :“ 表 面 上 是 偶然 性 在 起 作用 的 地 方 ， 这 种 偶然 性 始终 是 受 内 部 的 隐藏 着 
的 规律 支配 的 ， 而 问题 只 是 在 于 发 现 这 些 规律 。” 掷 硬币 这 个 实验 所 反映 出 来 的 规律 在 概率 论 中 
被 称 为 大 数 定理 ， 又 被 称 为 大 数 法 则 。 它 是 描述 相当 多 次 数 重 复 实 验 结果 的 定律 。 根 据 这 个 定 
律 知 道 ， 样 本 数量 越 多 ， 则 其 平均 就 越 趋 近 期 望 值 。 


定理 : (马尔 可 夫 不 等 式 ) 设 X 为 取 非 负 值 的 随机 变量 ， 则 对 于 任何 常数 a>0， 有 : 














px>a)< < 
a 
证 明 : 对 于 a>0， 令 
1, Xa 
. 人 其 他 
由 于 X>0， 所 以 有 ， 
X 
[均一 
a 
两 边 求 期 望 ， 得 : 
1 
FEI]s< 二 ED 


上 式 说 明 E[X]/a>E[1] = P{X>a}， 即 定理 得 证 。 
作为 推论 ， 可 得 下 述 定 理 。 


定理 :〈 切 比 雪 夫 不 等 式 ) 设 X 是 一 随机 变量 ， 它 的 期 望 E(X) = 14， 方 差 D(X) = o?， 则 对 
任意 k > 0， 有 : 
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本 
P{IX — kl>k}< pa 


证 明 : 由 于 (X - 和 内 ?为 非 负 随机 变量 ， 利 用 马尔 可 夫 不 等 式 ， 得 ; 


P(X -2kr< 5 全 
由 于 (X 一 办 ?>k? 与 |X 一 hl<|k| 是 等 价 的 ， 因 此 : 


PIX — pl>lkD< 


所 以 结论 得 证 。 

马尔 可 夫 不 等 式 和 切 比 雪 夫 不 等 式 的 重要 性 在 于 : 在 只 知道 随机 变量 的 期 望 ， 或 期 望 和 方 
差 都 知道 的 情况 下 ， 可 以 导出 概率 的 上 界 。 当 然 ， 如 果 概 率 分 布 已 知 ， 就 可 以 直接 计算 概率 的 
值 而 无 须 计 算 概率 的 上 界 。 所 以 切 比 雪夫 不 等 式 的 用 途 更 多 的 是 证 明理 论 结果 (例如 下 面 这 个 
定理 )， 更 重要 的 是 它 可 以 被 用 来 证 明 大 数 定理 。 

定理 : Var(X) = 0， 则 P{X = E[X]} = 1， 也 就 是 说 ， 一 个 随机 变量 的 方差 为 0 的 充 要 条 件 
是 这 个 随机 变量 的 概率 为 1 地 等 于 常数 。 

证 明 : 利用 切 比 雪夫 不 等 式 ， 对 任何 n>1 


plix 1> 嫩 =。 
川 > 才 = 


令 一 co， 得 ， 
1 1 
0 = lim PX ~ >|=P {lim |ix -nl > 吉 =PEx* 
结论 得 证 。 
弱 大 数 定理 :( 辛 钦 大 数 定理 ) 设 XX,X,,… … 是 独立 同 分 布 的 随机 变量 序列 ， 它 们 具有 


公共 的 有 限 的 数学 期 望 B(X;) = 4， MM i 
i _ 和 a "十 六， 


1 n 
In?|E>- < 二 - 
证 明 : 此 处 我 们 只 证 明 大 数 定理 的 一 种 特殊 情形 ， 即 在 上 述 定理 所 列 条件 的 基础 上 ， 再 假 
设 Var(Xi) 为 有 限 值 ， 即 原 随 机 变量 序列 具有 公共 的 有 限 的 方差 上 界 。 不 妨 设 这 个 公共 上 界 为 常 


则 对 于 任意 s > 0， 有 : 
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数 C， 则 Var(Xi)<C。 这 种 特殊 形式 的 大 数 定理 也 被 称 为 切 比 雪夫 大 数 定理 。 此 时 














n 
BY |= 
ni K| 三 必 
k=1 
1 号 1 
D>》 和 %|= 吉 DC) <= 
k=1 k=1 
利用 切 比 雪夫 不 等 式 ， 得 : 
n n 
Pp x >et <&D -yx ga 
类 一 AM 二 E(S 放 | /s 一 人 
k=1 ki 














由 上 式 看 出 ， 定 理 显 然 成 立 。 

设 总 , 克 ，…， Yi,… 是 一 个 随机 变量 序列 ，a 是 一 个 常数 。 若 对 任意 s > 0， 有 : 

lim P{lY ~ al < e}=1 
则 称 序列 六 ,二 ,…, 六,… 依 概率 收敛 于 a， 记 为 : 
河 光 Q 

依 概率 收敛 的 序列 有 以 下 性 质 : 设 和 7 二 a， b， 又 设 函数 g(x,y) 在 点 (a,b) 处 连续 ， 

则 有 : 
g(Xn Yi) > gla, b) 

如 此 一 来 ， 上 述 弱 大 数 定理 又 可 表述 如 下 。 

设 随 机 变量 Xi,X2,… ,Xn,… 独 立 同 分 布 ,并 且 具 有 公共 的 数学 期 望 E(X;) = ,其 中 i = 1,2,…， 


则 序列 
1 
Seb 


依 概 率 收 敛 于 j。 


弱 大 数 定理 最 早 是 由 雅 各 布 。 伯 努 利 证 明 的 ， 而 且 他 所 证 明 的 其 实 是 大 数 定理 的 一 种 特殊 
情况 ， 其 中 总 只 取 0 或 1， 即 X 为 伯 努 利 随机 变量 。 他 对 该 定理 的 陈述 和 证 明 收 录 在 1713 年 出 
版 的 巨著 《 猜 度 术 》 一 书 中 。 而 切 比 雪夫 是 在 伯 努 利 逝 世 一 百 多 年 后 才 出 生 的 ， 换 句 话 说， 在 
伯 努 利生 活 的 时 代 ， 切 比 雪夫 不 等 式 还 不 为 人 所 知 。 伯 努 利 必须 借助 十 分 巧妙 的 方法 来 证 明 其 
结果 。 上 述 弱 大 数 定理 是 独立 同 分 布 序列 的 大 数 定理 的 最 一 般 形式 ， 它 是 由 苏联 数学 家 辛 钦 所 
证 明 的 。 
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与 弱 大 数 定理 相对 应 的 , 还 有 强大 数 定理 。 强 大 数 定理 是 概率 论 中 最 著名 的 结果 。 它 表明 ， 
独立 同 分 布 的 随机 变量 序列 ， 前 n 个 观察 值 的 平均 值 以 概率 为 1 地 收敛 到 分 布 的 平均 值 。 


定理 :( 强 大 数 定理 ) 设 X,X,,… 为 独立 同 分 布 的 随机 变量 序列 ， 其 公共 期 望 值 E(X;) = 4 为 
有 限 ， 其 中 i = 1,2,…， 则 有 下 式 成 立 : 


法 国 数学 家 波 莱 尔 最 早 在 伯 努 利 随机 变量 的 特殊 情况 下 证 明了 强大 数 定理 。 而 上 述 这 个 一 
般 情 况 下 的 强大 数 定理 则 是 由 苏联 数学 家 柯 尔 莫 哥 洛 夫 证 明 的 。 限 于 篇 幅 ， 本 书 对 此 不 做 详细 
证 明 ， 有 兴趣 的 读者 可 以 参阅 相关 资料 以 了 解 更 多 细节 。 但 有 必要 分 析 一 下 强 、 弱 大 数 定理 的 
区 别 所 在 。 弱 大 数 定理 只 能 保证 对 于 充分 大 的 n*， 随 机 变量 (Xi 十 … 十 Xi)/ww 趋 近 于 jp。 但 它 不 
能 保证 对 一 切 n > n*，(Xi 十 … 十 XX,)/n 也 一 定 在 4 的 附近 。 这 样 ，|(Xi 十 … 十 Xn)/n 一 HI 就 可 以 
无 限 多 次 偏离 0 (尽管 出 现 较 大 偏离 的 频率 不 会 很 高 )。 而 强大 数 定理 则 恰恰 能 保证 这 种 情况 不 
会 出 现 ， 强 大 数 定理 能 够 以 概率 为 1 地 保证 ， 对 于 任意 正 数 e > 0， 有 : 


n 
n k 
k=1 








只 可 能 出 现 有 限 次 。 


大 数 定理 保证 了 一 些 随 机 事件 的 均值 具有 长 期 稳定 性 。 在 重复 实验 中 ， 随 着 实验 次 数 的 增 
加 ， 事 件 发 生 的 频率 趋 于 一 个 稳定 值 ， 人 们 同时 也 发 现 ， 在 对 物理 量 的 测量 实践 中 ， 测 定 值 的 
算术 平均 也 具有 稳定 性 。 比 如 ， 向 上 抛 一 枚 硬币 ， 硬 币 落下 后 哪 一 面 朝 上 本 来 是 偶然 的 ， 但 当 
上 抛 硬币 的 次 数 足够 多 后 ， 达 到 上 万 次 甚至 几 十 万 、 几 百 万 次 以 后 ， 我 们 就 会 发 现 ， 硬 币 每 一 
面向 上 的 次 数 约 占 总 次 数 的 二 分 之 一 。 偶 然 中 包含 着 必然 。 


4.5 ”中央 极 限定 理 


中 央 极 限定 理 是 概率 论 中 最 著名 的 结果 之 一 。 中 心 极限 定理 说 明 ， 大 量 相互 独立 的 随机 变 
量 之 和 的 分 布 以 正 态 分 布 为 极限 。 准 确 来 说 ， 中 心 极限 定理 是 概率 论 中 的 一 组 定理 ， 这 组 定理 
是 数理 统计 学 和 误差 分 析 的 理论 基础 ， 它 同时 为 现实 世界 中 许多 实际 的 总 体 分 布 情况 提供 了 理 
论 解释 。 下 面 给 出 最 简 版 本 的 中 央 极 限定 理 。 

定理 :中央 极限 定理 ) 设 Xi,X2,… 为 独立 同 分 布 的 随机 变量 序列 , 其 公共 分 布 的 期 望 为 4， 
方差 为 o?， 则 随机 变量 

Xi 二 二 二 X 一 nH 
aoVn 
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的 分 布 当 n 一 w% 时 趋向 于 标准 正 态 分 布 。 即 对 任何 a € (一 oo, co)， 
g Xi mn 1 fe 
加 "区 过 -二 -高 | 
上 述 定理 的 证 明 关键 在 于 下 面 这 样 一 条 引 理 ， 由 于 其 中 牵涉 太 多 数学 上 的 细节 ， 此 处 我 们 
不 打算 给 出 该 引 理 的 详细 证 明 ， 而 仅仅 将 其 作为 一 个 结论 来 帮助 证 明 中 央 极 限定 理 。 
引 理 : 设 Z1,22,… 为 一 随机 变量 序列 ， 其 分 布 函 数 为 Fz, ， 相 应 的 和 矩 母 函 数 为 Mz,， n>>1。 又 
设 Z 的 分 布 为 Fz， 和 矩 母 函 数 为 Mz， 若 Mz (t) 一 Mz(t) 对 一 切 t 成 立 ， 则 Fz (t) > Fz(t) 对 Fz(t) 所 
有 的 连续 点 成 立 。 
若 Z 为 标准 正 态 分布 ， 则 Mz(t) = et /2， 利 用 上 述 引 理 可 知 ， 若 
lim, Mz, (t) 一 蜡 
则 有 《其 中 四 是 标准 正 态 分 布 的 分 布 函数 ): 
lm Fz,(t) =» Bt) 
下 面 我 们 就 基于 上 述 结论 给 出 中 央 极 限定 理 的 证 明 。 


证 明 : 首先 ,假定 x = 0，o? = 1,， 我 们 只 在 X; 的 矩 母 函 数 M(t) 存 在 且 有 限 的 假定 下 证 明定 

理 。 现 在 ，Xi/Vn 的 矩 母 函数 为 : 
E[etxew/vm] = M (a) 
n 


由 此 可 知 ，2E 1 和 7/Vn 的 矩 母 函 数 为 ; 


记 L(t) = In M(t)。 对 于 L(t)， 有 : 
L(0) = 0; L(0)= M'(0)/M(0)=4=0 
M(O)M" (0) — [M'(0)]? 
[M(0)]? 
要 证 明定 理 ， 由 上 述 引 理 ， 则 必须 证 明 : 


1L"(0) = =E[X]?=1 


lim [M(E/VR)]" =» eS 
或 等 价 地 
lim nL(t/Vn) 一 t2/2 
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下 面 的 一 系列 等 式 说 明 这 个 极限 式 成 立 (其 中 使 用 了 洛 必 达 法 则 )。 
es 2 -3/2 
lim nL(t/Vn) = lim Ne 


vod, ee - L(t/Vn)n-3/2t2 


= lim 一 2-372 


na% 2n-12 


,if NE _ £2 
-a (局 下 = 
如 此 便 在 kx = 0,，o? = sa Te | | et pe 
可 得 到 一 般 情况 下 的 结论 。 
需要 说 明 的 是 ， 虽 然 上 述 中 央 极 限定 理 只 说 对 每 一 个 常数 w， 有 : 
lim PE pe 
n+00 aVn 
事实 上 , 这 个 收敛 是 对 a 一 致 的 ,。 当 n 一 w 时 , 所 (a) 二 f(a) 对 a 一 致 ,是 说 对 任何 e > 0, 存在 NN, 使 
得 当 n>N 时 ， 不 等 式 | 户 (a) - Fa)| < e 对 所 有 的 a 都 成 立 。 
最 后 ， 我 们 给 出 相互 独立 随机 变量 序列 的 中 心 极限 定理 。 注 意 与 前 面 的 情况 不 一 样 的 地 方 
在 于 ， 这 里 不 再 强调 “ 同 分 布 ” 即 不 要 求 有 共同 的 期 望 和 一 致 的 方差 。 
定理 : 设 入 ,Xz2,… 为 相互 独立 的 随机 变量 序列 ， 相 应 的 期 望 和 方差 分 别 为 4; = E[Xi]， 
oF = Var(Xi)。 若 Xi 为 一 致 有 界 的 , 即 存在 M ,使 得 P{|X;| < M} = 1 对 一 切 i 成 立 ; 有 2%1 oz = +%， 
则 对 一 切 a， 有 : i 


<al = PB(a) 


Ti P| 和 -1(Xi — Hi) 
VEE1 oF 
中 央 极限 定理 的 证 明 牵 涉 内 容 较 多 ， 也 非常 复杂 。 对 于 实际 应 用 而 言 ， 记 住 它 的 结论 可 能 
要 比 深 挖 它 的 数学 细节 更 为 重要 。 
中 央 极限 定理 告诉 我 们 ， 若 有 独立 同 分 布 的 随机 变量 序列 Xi,X,…X,， 它 们 的 公共 期 望 和 


方差 分 别 为 k = E[Xi:]，o? = D(Xi)。 不 管 其 分 布 如 何 ， 只 要 n 足 够 大 ， tgp 
分 布 : 


<o| = PB(a) 


n=2% 


PieiXi — nk 
Vnoa 
另外 一 个 事实 是 如 果 贡 ~N(u op)， 并 且 甘 相互 独立 ， 其 中 [= 1,2,…,m， 则 它们 的 线性 组 合 
Ci 下 十 Cz 太 十 二 Cn 区 仍 服从 正 态 分 布 ， 其 中 Cu C2,…, Cm 是 不 全 为 0 的 常数 。 于 是 ， 由 数学 期 


n 
Dx 一 N(nu,no’), => N(0,1) 


i=1 


wwaibbt.com DODOODDOD 


第 4 章 概率 统计 基础 


望 和 方差 的 性 质 可 知 ， 


m m 
CF + Ch t+ CmYn~N (> Ci » co 


i=1 i=1 
如 果 令 上 式 中 的 C2,…, Cm 为 0， 令 站 =X，C1 = 1/n， 则 进一步 可 知 随机 变量 的 均值 也 服从 正 态 
分 布 : 


a/Vn 
于 是 便 可 以 得 到 下 面 这 个 结论 : 设 X1,X2,… ,XX 是 来 自 正 态 总 体 N(1,a?) 的 一 个 样本 ，X 是 样本 


的 均值 ， 则 有 : 
_ 如 2 
X=N (mS) 


第 一 个 版 本 的 中 央 极 限定 理 最 早 是 由 法 国 数学 家 棣 莫 弗 于 1733 年 左右 给 出 的 。 他 在 论文 中 
使 用 正 态 分 布 去 估计 大 量 抛掷 硬币 出 现 正面 次 数 的 分 布 。 这 个 超越 时 代 的 成 果 险 些 被 历史 所 遗 
忘 ， 所 幸 的 是 ， 法 国 著名 数学 家 拉 普 拉 斯 在 1812 年 发 表 的 著作 中 拯救 了 这 个 默默 无 闻 的 理论 。 
拉 普 拉 斯 扩展 了 棣 黄 弗 的 理论 ， 指 出 二 项 分 布 可 用 正 态 分 布 逼 近 。 但 同 棣 莫 弗 一 样 ， 拉 普 拉 斯 
的 发 现在 当时 并 未 引起 很 大 反响 。 而 且 ， 拉 普 拉 斯 对 于 更 一 般 化 形式 的 中 央 极 限定 理 所 给 出 之 
证 明 并 不 严格 。 事实 上 , 沿用 他 的 方法 也 不 可 能 严格 化 。 直 到 19 世纪 末 中 央 极 限定 理 的 重要 性 
才 被 世人 所 知 。1901 年 ， 切 比 雪夫 的 学 生 一 俄国 数学 家 李 雅 普 诺 夫 用 更 普通 的 随机 变量 定义 
中 心 极限 定理 ， 并 在 数学 上 进行 了 精确 的 证 明 。 


4.6 ”随机 采样 分 布 


在 数理 统计 中 ， 我 们 往往 对 有 关 对 象 的 某 一 项 数量 指标 感 兴趣 。 为 此 ， 考 虑 开展 与 这 一 数 
量 指标 相 联系 的 随机 实验 ， 并 对 这 一 数量 指标 进行 实验 或 者 观察 。 通 常 将 实验 的 全 部 可 能 的 观 
察 值 称 为 总 体 , 并 将 每 一 个 可 能 的 观察 值 称 为 个 体 . 总 体 中 包含 的 个 体 数 目 被 称 为 总 体 的 容量 。 
容量 有 限 的 被 称 为 有 限 总 体 ， 容 量 为 无 限 的 则 被 称 为 无 限 总 体 。 

总 体 中 的 每 一 个 个 体 是 随机 实验 的 一 个 观察 值 , 因此 它 对 应 于 某 一 随机 变量 X 的 值 。 如 此 ， 
一 个 总 体 对 应 于 一 个 随机 变量 YX。 于 是 对 总 体 的 研究 就 变 成 了 对 一 个 随机 变量 X 的 研究 ，X 的 分 
布 函数 和 数字 特征 就 被 称 为 总 体 的 分 布 函数 和 数字 特征 。 这 里 我 们 将 总 体 和 相应 的 随机 变量 统 
一 看 待 。 

在 实际 中 , 总 体 的 分 布 一 般 是 未 知 的 , 或 者 只 知道 它 具 有 某 种 形式 而 其 中 包含 着 未 知 参 数 。 


Lyx n( 加 = -kh Noal 
vg i 几 - 一 外 SF 2 
全 n 
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在 数理 统计 中 ， 人 们 都 是 通过 从 总 体 中 抽取 一 部 分 个 体 ， 然 后 根据 获得 的 数据 来 对 总 体 分 布 做 
出 推断 。 被 抽出 的 部 分 个 体 被 称 为 总 体 的 一 个 样本 。 


所 谓 从 总 体 抽取 一 个 个 体 ， 就 是 对 总 体 X 进 行 一 次 观察 并 记录 其 结果 。 在 相同 的 条 件 下 对 
总 体 X 进 行 n 次 重复 的 、 独 立 的 观察 ， 并 将 n 次 观察 结果 按照 实验 的 次 序 记 为 X1,X2,… ,Xn。 由 于 
Xi,X2,… ,Xn 是 对 随机 变量 X 观 察 的 结果 ， 且 各 次 观察 是 在 相同 的 条 件 下 独立 完成 的 ， 所 以 可 以 
认为 Xi,X2,… ,Xn 是 相互 独立 的 ， 且 都 是 与 X 具 有 相同 分 布 的 随机 变量 。 这 样 得 到 的 Xi3,X2,… ,X 
被 称 为 来 自 总 体 X 的 一 个 简单 随机 样本 ，n 被 称 为 这 个 样本 的 容量 。 如 无 特定 说 明 ， 则 我 们 所 提 
到 的 样本 都 是 指 简单 随机 样本 。 当 n 次 观察 一 经 完成 ， 我 们 便 得 到 一 组 实数 xi,x2,…,xn， 它 们 
依次 是 随机 变量 %,X2,…,X 的 观察 值 ， 称 为 样本 值 。 


设 X 是 具有 分 布 函 数 F 的 随机 变量 ， 若 X1,X2,…,X 是 具有 同一 分 布 函 数 F 的 、 相 互 独立 的 随 
机 变量 ， 则 称 生 ,Xz,… ,为 从 分 布 函数 F〈 或 总 体 F， 或 总 体 X) 得 到 的 容量 为 n 的 简单 随机 样 
本 ， 简 称 样本 ， 它 们 的 观察 值 z x2,… ,xn 称 为 样本 值 ， 又 称 为 x 的 n 个 独立 的 观察 值 。 


也 可 以 将 样本 看 成 一 个 随机 向 量 , 写成 (X1,X2,… ,Xn), 此 时 样本 值 相 应 地 写成 (xi, xz ,xn)。 
若 (xu xz ,Xn) 与 (y1,y2,…, Yn) 都 是 相应 于 样本 (Xi,X2,…, Xn) 的 样本 值 ， 一 般 来 说 它们 是 不 相 
同 的 。 

样本 是 进行 统计 推断 的 依据 。 在 应 用 时 ， 往 往 不 是 直接 使 用 样本 本 身 ， 而 是 针对 不 同 的 问 
题 构造 样本 的 适当 函数 ， 利 用 这 些 样本 的 函数 进行 统计 推断 。 

在 统计 学 中 ， 抽 样 〈Sampling) 是 一 种 推论 统计 方法 ， 它 是 指 从 目标 总 体 〈Population) 中 
抽取 一 部 分 个 体 作为 样本 (Sample)， 通 过 观察 样本 的 某 一 或 某 些 属性 ， 依 据 所 获得 的 数据 对 总 
体 的 数量 特征 得 出 具有 一 定 可 靠 性 的 估计 判断 ， 从 而 达到 对 总 体 的 认识 。 

在 R 中 可 以 通过 函数 sample() 来 实现 对 总 体 的 采样 。 首 先 ， 对 于 等 可 能 的 不 放 回 的 随机 抽 
样 可 采用 下 列 语法 形式 : 
sample (x, n) 

其 中 x 为 要 抽取 的 向 量 ，n 为 样本 容量 。 例 如 ， 从 52 张 扑 克 牌 中 抽取 5 张 对 应 的 R 语句 为 : 
> sample (1:52, 5) 
[T2389 

其 次 ， 对 于 等 可 能 的 有 放 回 的 随机 抽样 ， 可 使 用 下 列 语法 形式 : 

sample (x, n, replace=TRUE) 


其 中 ， 选 项 replace=TRUE 表示 抽样 是 有 放 回 的 ， 此 选项 省 略 或 将 其 置 为 FALSE 则 表示 抽样 是 
不 放 回 的 。 例 如 ， 抛 一 枚 均匀 的 硬币 3 次 ， 在 R 中 可 使 用 如 下 语句 : 


>: sample(c("H"7 "T"), 3 replace=TRUE) 
EE 让 WH MT mmTn 
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再 比如 掷 一 颗 仍 子 10 次 可 表示 为 : 
> sample(l1:6, 10, replace=TRUE) 
{EID 3 3d 
在 某 些 情况 下 ， 不 等 可 能 的 随机 抽样 也 可 能 被 用 到 ， 其 语法 形式 为 : 
sample(x, n, replace=TRUE, prob=y) 
其 中 ， 选 项 prob =y 用 于 指定 x 中 元 素 出 现 的 概率 ， 向 量 y 与 x 等 长 度 。 例 如 ， 一 名 运动 员 投篮 命 
中 的 概率 为 0.80， 那 么 他 投篮 10 次 在 R 中 可 以 表示 为 (其 中 以 1 表示 命中 ，0 表示 失败 ): 
> sample(c(1, 0), 10, replace=TRUE, prob=c(0.8,0.2)) 
EC 
设 Xi,X2,… ,XY 是 来 自 总 体 X 的 一 个 样本 ， 9 (Xi,X2,… ,Xn) 是 Xi,X2,… ,Xn 的 函数 ， 若 g 中 不 
含 未 知 参 数 ， 则 称 g (Xi,X2,…, Xn) 是 统计 量 。 


因为 X1,X2,… ,Xn 都 是 随机 变量 ， 而 统计 量 g(X1,X,,…,X) 是 随机 变量 的 函数 ， 因此 统计 量 
是 一 个 随机 变量 。 设 xi, xz ,mn 是 相应 于 样本 X,X2 和 的 样本 值 ， 则 称 g(xi, xz，……xn) 是 
9 (Xi,Xz,… ,Xn) 的 观察 值 。 


样本 均值 和 样本 方差 是 两 个 最 常用 的 统计 量 。 设 Xi,X2,…, Xn 是 来 自 总 体 X 的 一 个 样本 ， 
X1,X2,… ,Xn 是 这 一 样本 的 观察 值 。 定 义 样本 均值 如 下 : 


n 
1 
n 四 
t=1 


一 Xi 


样本 方差 为 : 





很 多 人 会 对 上 面 的 公式 感到 困惑 , 疑问 之 处 就 在 于 为 什么 样本 方差 计算 公式 里 分 母 为 n 一 1? 
简单 地 说 ， 这 样 做 的 目的 是 为 了 让 方差 的 估计 无 偏 。 无 偏 估计 (unbiased estimator) 的 意思 是 指 
估计 量 的 数学 期 望 等 于 被 估计 参数 的 真实 值 ， 否 则 就 是 有 偏 估计 (biased estimator)。 那 为 什么 
分 母 必 须 是 n 一 1 而 不 是 "才能 使 得 该 估计 无 偏 呢 ? 这 是 令 很 多 人 倍 感 迷惑 的 地 方 。 


首先 ， 我 们 假定 随机 变量 X 的 数学 期 望 4 是 已 知 的 ， 然 而 方差 ?未 知 。 在 这 个 条 件 下 ， 根 据 
方差 的 定义 有 : 


BI = WW] ="0 Vi= 2 
由 此 可 得 : 
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人 


E E> = | = 

i=1 
因此 

1 n 

2 
是 方差 cz 的 一 个 无 偏 估计 ， 注 意 式 中 的 分 母 An。 这 个 结果 符合 直觉 ， 并 且 在 数学 上 也 是 显 而 易 
见 的 。 

现在 ， 我 们 考虑 随机 变量 X 的 数学 期 望 /是 未 知 的 情形 。 这 时 ， 我 们 会 倾向 于 直接 用 样本 均 

值 8 来 替换 掉 上 面 式 子 中 的 wk。 这 样 做 有 什么 后 果 呢 ? 后 果 就 是 如 果 直 接 使 用 


ie 
Dh 
作为 估计 ， 将 会 倾向 于 低估 方差 。 这 是 因为 ; 
ie 人 
wp -ts 30 -D+ (uD 
= )+2y 0 Jo -D+lY Ry 
7 名 TS “全 
1 区 
= 全 -7 +2 -Wh -D+ 
1 
ee 
言 之 ， 除 非 正 好 = J， 否 则 一 定 有 : 
Te le 
i =X < = 
而 不 等 式 右边 的 才 是 对 方差 的 “无 偏 ” 估 计 。 这 个 不 等 式 说 明了 ， 为 什么 直接 使 用 
1 
72 CD) 
i=1 


会 导致 对 方差 的 低估 。 那 么 ， 在 不 知道 随机 变量 真实 数学 期 望 的 前 提 下 ， 如 何 “ 正 确 ” 地 估计 
方差 呢 ? 答案 是 把 上 式 中 的 分 母 7 换 成 一 1， 通 过 这 种 方法 把 原来 的 偏 小 的 估计 “放大 ”一 点 
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儿 ， 我 们 就 能 获得 对 方差 的 正确 估计 了 。 而 且 这 个 结论 也 是 可 以 被 证 明 的 。 
下 面 我 们 就 来 证 明 : 





n 
1 
i 21 = 
E 的 x) 
i= 


记 D(Xi),E(Xi) 为 Xi 的 方差 和 期 望 ， 显 然 有 D(Xi) = o?、E(Xi) = 


mm et 


i=1 















































EX) = DT) + BEAR) = + 
而 且 有 : 
好 | = 》 BE] = 》 [DC + E20)] = ne? + 2) 
-eo 
a 2 = 岂 EE = NR) = "(G+pe) 
所 以 可 得 : 
ai- D2 二 >w- D2 
下 yo — 2X.X + 7) 
1 他 2 o? 
Ee nce +t) -am(S+e)+n(S +e) = 0 
结论 得 证 。 


设 总 体 X( 无 论 服 从 什么 分 布 , 只 要 均值 和 方差 存在 ) 的 均值 为 1, 方差 为 0?, Xi,X2,… 各 是 来 
自 总 体 X 的 一 个 样本 ，X 和 5s? 分 别 是 样本 均值 和 样本 方差 ， 则 有 : 


E(X)=, D(X) = o?/n 
而 


E(S2)=E en) -op -nz 
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人 





如 2 
> e+) (G+e) =0? 
t=1 


BE) = 0 


回忆 4.5 节 最 后 给 出 的 一 个 结论 : 设 六 ,和 ,六 是 来 自 正 态 总 体 N(u ac2) 的 一 个 样本 ，X 是 
样本 的 均值 ， 则 有 : 
本 02 
| 


如 果 将 其 转换 为 标准 正 态 分 布 的 形式 就 会 得 出 : 

X—h 

mp 
很 多 情况 下 ， 我 们 无 法 得 知 总 体 方差 sa*?， 此 时 我 们 就 需要 使 用 样本 方差 $7 来 替代 。 但 这 样 做 的 
结果 就 是 ， 上 式 将 发 生 些许 变化 。 最 终 的 形式 由 下 面 这 个 定理 给 出 。 这 也 是 本 书后 面 将 多 次 用 
到 的 一 个 重要 结论 。 

定理 : 设 X1,X2,… Xn 是 来 自 正 态 总 体 N(p,o?) 的 一 个 样本 ,样本 均值 和 样本 方差 分 别 是 X 和 

2 则 有 : 

X—h 

Be 


其 中 ，t(m 一 1) 表示 自由 度 为 n 一 1 的 t 分 布 。 当 ?足够 大 时 ，t 分 布 近 似 于 标准 正 态 分 布 〈 此 时 即 
变 成 中 央 极 限定 理 所 描述 的 情况 )。 但 对 于 较 小 的 n 而 言 ，t 分 布 与 标准 正 态 分 布 有 较 大 差别 。 
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eh ORE 


当 用 户 对 数据 进行 统计 分 析 时 ， 图 形 无 疑 是 对 统计 分 析 结 果 的 最 显 性 化 展示 ， 恰 当地 使 用 
统计 图 形 ， 可 以 使 数据 分 布 特性 或 者 发 展 趋势 一 目 了 然 。R 语言 的 一 个 显著 特色 就 是 具有 强大 
的 统计 制图 功能 。 本 章 介 绍 如 何 利用 R 语言 来 绘制 统计 图 形 。 


5.1 饼 状 图 


饼 状 图 在 商业 领域 和 大 众 媒体 中 几乎 无 处 不 在 。 直 观 上 ， 它 是 一 个 划分 为 几 个 扇形 的 圆 形 
统计 图 表 , 而 这 些 扇 区 拼 成 了 一 个 被 切 开 的 饼 状 图 案 。 饼 状 图 一 - 一 
通常 用 于 描述 量 、 频 率 或 百分比 之 间 的 相对 关系 ,在 饼 状 图 中 ， 
每 个 扇 区 的 弧 长 (以 及 圆心 角 和 面积 ) 大 小 为 其 所 表示 的 数量 
的 比例 。 这 些 扇 区 合 在 一 起 刚好 是 一 个 完全 的 圆 形 。 

已 知 最 早 的 饼 状 图 是 由 苏格兰 工程 师 、 经 济 学 家 威廉 。 普 
莱 费 尔 (William Playfair) 在 其 1801 年 出 版 的 著作 《统计 学 
摘要 》 中 提出 的 。 普 莱 费 尔 还 是 最 早 使 用 柱状 图 和 线形 图 来 表 
达 数 据 的 人 ， 因 此 他 也 被 认为 是 信息 可 视 化 的 先驱 。 如 图 5-1 
所 示 是 普 莱 费 尔 当 时 所 使 用 的 一 张 饼 状 图 ， 描 述 了 1789 年 以 
前 土耳其 帝国 在 亚洲 、 欧 洲 及 非洲 中 所 占 的 比例 。 

尽管 饼 状 图 在 商业 领域 和 杂志 中 的 使 用 很 广泛 ,但 统计 学 图 5.1 普 莱 费 尔 使 用 的 一 张 饼 
家 普遍 认为 饼 状 图 表达 信息 的 效果 很 差 , 因为 在 饼 状 图 中 很 难 状 图 
对 不 同 扇 区 的 大 小 进行 比较 , 或 对 不 同 饼 状 图 之 间 的 数据 进行 
比较 。 所 以 饼 状 图 也 是 饱 受 批评 的 图 表 之 一 ， 目 前 它 也 较 少 用 于 科技 出 版 物 。 鉴 于 这 个 原因 ， 
R 中 提供 的 涉及 饼 状 图 的 操作 相 比 于 其 他 统计 图 形 要 少 很 多 。 

根据 世界 银行 发 布 的 数据 ， 下 面 的 代码 用 饼 状 图 展示 了 2013 年 各 金 砖 国家 GDP 占 全 部 五 

wwaibbt.com 0DDOOOOOD 





TREE 


R 语言 实战 一 一 机 器 学 习 与 数据 分 析 


国 总 量 比重 的 情况 。 默 认 情况 下 ,数据 按 疼 时 针 显示 , 如 图 5-2 中 的 左 图 所 示 。 当 将 参数 clockwise 
置 为 TRUE 时 ， 数 据 将 按 顺 时 针 显 示 ， 如 图 5-2 中 的 右 图 所 示 。 


oountrvies < 一 ncl(BraziluywRussdanrnndiannchinan South AtECLGCawD) 

> GDP <-C(23920，20790，18618，94906，3660) 

> pie(GDP, labels = countries, main =. "GDP of BRICS countries (2013)") 
> pie(GDP, labels = countries, clockwise = TRUE, 

十 main = "GDP of BRICS countries (2013)") 


GDP of BRICS countries (2013) GDP of BRICS countries (2013} 





图 5-2 人 饼 状 图 示例 


除了 定制 饼 状 图 中 数据 显示 的 方向 次 序 〈 逆 时 针 或 顺 时 针 ) 以 外 ， 我 们 还 可 以 个 性 化 地 指 
定 饼 状 图 中 各 扇形 区 域 的 颜色 。 这 主要 是 通过 给 参数 col 赋 新 值 的 方法 来 实现 。 例 如 下 面 的 两 
段 代 码 分 别 使 用 彩色 和 灰 度 两 种 方案 对 扇形 块 进行 着 色 ， 结 果 如 图 5-3 所 示 。 
> pie(GDP, labels = countries, col = c("purple", "violetred1l", 
+ "green3", "cornsilk", "cyan"), main = "GDP of BRICS countries (2013)") 


> pie(GDP, labels = countries, col = gray{(seq(0.4, 1.0, length = 5)), 
+ main = "GDP of BRICS countries (2013)™) 


GDP of BRICS countries (2013) GDP of BRICS countries (2013) 


Russia Russia 
India 





图 5-3 ”调整 饼 状 图 的 颜色 


wwaibbt.com DODDDODDOD 


72 


下 


有 些 时 候 我 们 更 希望 在 饼 状 图 上 直接 将 各 区 域 所 占 的 比例 值 标识 出 来 。 下 面 这 段 示例 代码 
先 将 样本 数据 转化 为 比例 值 ， 再 将 这 些 比例 信息 添加 到 各 个 扇形 的 标签 上 。 其 中 还 使 用 了 
rainbow() 函 数 来 定义 各 扇形 的 颜色 。 其 执行 结果 如 图 5-4 所 示 。 
> percentage = round (GDP/sum (GDP)*100, 2) 
> index <=- paste(countries,  ", percentage, "%", sep="") 


> pie({GDP, labels = index, Col = rainbow(length (index)), 
+ main= "Pie Chart with Percentages") 





Pie Chart with Percentages 


Russia 12.84% 
India 11.5% 


Brazil 14 78% 


South Africa 2.26% 








图 5-4 带 有 比例 值 的 饼 状 图 


在 R 中 绘制 三 维 的 饼 状 图 也 并 非 难事 ， 借 助 plotrix 包 中 的 pie3D(O 函 数 即 可 轻松 实现 ， 示 
例 代码 如 下 ， 绘 制 结果 见 图 5-5。 注 意 在 第 一 次 使 用 plotrix 包 之 前 ， 需 要 先 下 载 并 安装 该 包 。 
> library (plotrix) 


> pie3D{(GDP, labels = countries, explode = 0.1, 
+ main = "3D Pie Chart") 


正 像 统 计 学 家 们 不 喜欢 饼 状 图 一 样 ， 三 维 的 饼 状 图 同样 被 认为 是 华而不实 的 ， 因 为 它 对 于 
增进 数据 的 理解 毫 无 功用 。 前 面 我 们 提 到 ， 饼 状 图 最 受 诉 病 的 地 方 在 于 直观 上 ， 人 们 很 难 对 不 
同 的 扇形 区 域 的 大 小 进行 比较 。 例 如 在 前 面 给 出 的 几 幅 饼 状 图 中 ， 判 别 India 和 Russia 的 GDP 
比重 谁 大 谁 小 就 并 非 是 一 件 易 事 。 为 了 改善 这 种 情况 ， 人 们 设计 了 一 种 被 称 为 扇形 图 的 饼 状 图 
变种 。 在 扇形 图 中 ， 相 对 数量 的 差异 更 易于 识别 。 在 R 中 ， 借 助 plotrix 包 中 的 fan.plot() 函 数 可 
以 实现 对 扇形 图 的 绘制 ， 示 例 代 码 如 下 。 
> fan,plot (GDP, labels = countries, main = "Fan Plot") 

上 述 代码 的 执行 结果 如 图 5-6 所 示 , 易 见 扇形 图 将 不 同 扇 区 根据 各 自 大 小 进行 了 层 层 铺 羡 。 
如 此 一 来 ， 不 同 区 块 所 展示 的 相对 数量 之 差异 便 可 以 被 有 效 辨 识 了 。 
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3D Pie Chart Fan Plot 
Russia 























图 5-5 三 维 饼 状 图 图 5-6 扇形 图 














直方 图 这 一 概念 最 早 由 英国 统计 学 家 卡尔 。 皮 尔 逊 (Karl Pearson) 于 1895 年 创立 。 在 统 
计 学 中 ， 直 方 图 是 一 种 用 于 对 数据 分 布 情况 进行 展示 的 二 维 统计 图 形 。 它 的 横 轴 将 值 域 划 分 成 
一 定数 量 的 组 别 ， 纵 轴 上 则 显示 相应 值 出 现 的 频数 。 如 果 把 直方 图 上 每 个 组 别 的 计数 除 以 所 有 
组 别 的 计数 之 和 ， 就 得 到 了 归 一 化 直方 图 。 之 所 以 称 为 “ 归 一 ”， 是 因为 归 一 化 直方 图 的 所 有 属 
性 的 计数 之 和 为 1。 也 就 是 说 ， 每 个 属性 对 应 计数 都 是 0 一 1 之 间 的 一 个 数 ， 即 百分比 。 直 方 图 
在 品质 管理 和 图 像 处 理 领 域 亦 有 重要 应 用 。 此 外 ， 直 方 图 与 后 面 将 要 介绍 的 条 形 图 是 不 同 的 ， 
读者 在 学 习 时 应 当 注 意 体 会 二 者 的 区 别 。 


下 面 通过 一 个 具体 的 例子 来 向 读者 说 明 直 方 图 的 用 法 ， 此 处 使 用 R 内 医 的 数据 集 mtcars， 
它 位 于 datasets 包 中 ， 此 包 像 base 一 样 随 R 的 启动 会 被 自行 加 载 。 这 个 数据 集 给 出 的 是 由 美国 
Motor Trend 收集 的 1973 一 1974 年 期 间 总 共 32 辆 汽车 的 11 个 指标 (包括 油耗 及 10 个 设计 及 性 

能 方面 的 指标 )。 更 多 关于 该 数据 集 的 信息 请 读者 查阅 R 的 帮助 文档 。 


尽管 我 们 在 R 中 可 以 浏览 与 编辑 数据 集 mtcars, 但 还 不 能 直接 对 此 数据 集 进 行 操作 (分 析 )。 
为 此 ， 我 们 通过 如 下 函数 来 激活 该 数据 集 : 


> attach(mtcars) 






























































由 此 mtcars 便 成 为 当前 数据 集 了 。 这 时 就 可 以 方便 地 操作 其 中 的 数据 了 ， 比 如 输入 下 列 语句 便 
可 查看 数据 集中 的 油耗 这 一 项 指标 。 
>” mpg 


通过 查阅 帮助 文档 可 知 mpg 是 数据 表 中 第 一 列 的 列 名 ， 它 的 意思 是 指 Miles/(US) gallon， 
即 一 辆 车 消耗 1 加 仑 油 可 以 跑 的 里 程 数 .使 用 下 面 的 语句 可 以 在 R 中 生成 最 简单 形式 的 直方 图 ， 
结果 如 图 5-7 所 示 。 图 中 将 一 辆 车 消耗 1 加 仓 油 可 以 跑 的 里 程 数 平均 地 划分 为 5 个 档次 ， 纵 轴 则 
给 出 了 每 个 档次 所 对 应 的 频数 。 
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Histogram of mpg 

















图 5-7 默认 情况 下 的 最 简直 方 图 
> hist (mpg) 
我 们 还 可 以 通过 对 参数 的 调整 ， 丰 富 直方 图 的 显示 形式 。 下 面 的 两 段 代 码 给 出 了 可 供 参 考 
的 样 例 。 它 们 不 仅 修 改 了 盾 形 条 的 颜色 ， 还 增加 了 图 形 的 标题 和 标签 。 第 二 段 代码 还 重新 调整 
了 横 坐 标 轴 的 刻度 范围 。 结 果 如 图 5-8 所 示 。 


> hist(mpg，Pbreaks = 12, col = “lightblue”, border = “pink’”, 
+ xlab = “Miles/Gallon”, main = “Colored Histogram Example.1’”) 
> 

* 


hiet (mpagr breaks = Lo oo = "bluel ein = 0@(L0r 3 
xlab = “Miles/Gallon’”, main = “Colored Histogram Example.2”) 


Colored Histogram Example.1 Colored Histogram Example.2 


Frequency 




















图 5-8 自 定 义 颜 色 的 直方 图 示例 





此 外 ， 我 们 在 上 述 代码 中 将 参数 breaks 的 值 赋 为 12 后 ， 和 矩形 条 也 同时 被 等 分 为 12 个 档次 ， 

可 见 参数 breaks 的 作用 是 控制 分 组 的 数量 。 然 而 ， 这 个 参数 的 使 用 其 实 并 不 像 我 们 想象 的 那样 
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rt 


可 以 随心 所 欲 。 来 看 下 面 一 段 示 例 代 码 。 
>» higtk(mpg, breaks = 3， Xxlimm CcC(10, 35), 
+ xlab = "Miles/Gallon", main = "Histogram Example Ds = 3 
> hist (mpg, breaaks = 10, xlim =c(10, 35), oe 
+ xlab = "Miles/Gallonn main = "Histoyram Pxample (rea = tow) 
上 述 代 码 的 执行 结果 如 图 5-9 所 示 。 不 难 发 现 ， 当 参数 breaks 的 值 被 修改 成 10 或 者 15 之 

后 ， 直 方 图 并 没有 发 生 改 变 ， 分 组 数 仍然 是 12。 这 里 需要 提醒 读者 注意 的 是 ， 当 参数 breaks 接 
收 一 个 数值 类 型 的 值 作为 输入 时 ， 函 数 其 实 调用 了 pretty0 函 数 来 对 分 组 进行 划分 。 下 面 这 段 示 
例 代 码 表 明 ， 当 输入 的 参数 为 10、12 或 者 15 时 ，R 最 终 都 会 将 取 值 区 间 等 分 为 12 段 。 关 于 
pretty() 函 数 的 使 用 ， 笔 者 在 此 不 打算 做 过 多 的 解释 ， 有 兴趣 的 读者 可 以 参阅 R 的 帮助 文档 以 了 
解 更 多 细节 。 
> pretty (min (mpg) :max (mpg),12) 

[Il 10 12 14 16 18 20 22 24 26 28 30 32 34 
> pretty (min (mpg) :max (mpg) ,10) 

[1 10 12 14 16 16 20 22 24 26 28 30 32 34 


> pretty(min(mpg) :max(mog)v15) 
DO 12 14 16 Ye 20 22 24 26 28 30 32 34 

















Histogram Example (breaks = 15) Histogram Example (breaks = 10) 


| pa 


图 5-9 调整 分 组 数量 


参数 breaks 接收 的 值 不 仅 可 以 是 一 个 单一 的 数值 ， 而 且 还 可 以 是 一 个 由 多 个 数值 组 成 的 向 
量 类 型 数据 。 该 方法 可 以 用 来 实现 矩形 条 的 不 等 距 分 组 ， 来 看 下 面 这 段 示例 代码 。 


> hist(mpg, breadks = QI2x5:9，5x4， 1 col 7 "blueln， 
+ viim= c(t0, 0.12), xlab = "Miles/Gallon™", 
+ main = "Example with Non-egquidistant Breaks") 


上 述 代码 的 执行 结果 如 图 5-10 中 的 左 图 所 示 。 可 见 直 方 图 中 的 和 矩形 条 按照 我 们 设想 的 样子 








Fregquency 





Fredquency 
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被 不 等 距 地 划分 了 。 另 外 ， 还 有 一 个 地 方 需要 引起 我 们 的 注意 。 采 用 上 述 代码 的 一 个 附带 作用 
是 ， 所 绘制 的 直方 图 是 归 一 化 的 ， 即 纵 轴 不 再 是 各 分 组 所 对 应 的 绝对 频数 ， 而 是 相对 的 占 比 。 


Example with Non-equidistant Breaks Histogram Example of Density 


000 002 004 006 068 010 012 


局 
oe 
© 
学 
© 
可 
o 
安 
© 
马 
© 
局 
© 
S] 
8 
o 





20 25 





Miles/Gallon MiesiGatlon 


图 5-10” 归 一 化 直方 图 


当然 , 正常 情况 下 绘制 归 一 化 直方 图 应 该 是 通过 将 参数 freq 的 值 置 为 FALSE 来 实现 的 , 此 
时 系统 会 根据 概率 密度 而 不 是 频数 来 绘制 图 形 。 下 面 给 出 一 段 示例 代码 ， 其 执行 结果 如 图 5-10 
中 的 右 图 所 示 。 
> hist(mpg, breaks = 12, col = "bluel"; ylim = c(0, 0.12), 
blim lr eo(Ll0r 39)r, tredl ee EADSErI XLAD 过 "Miles/Gallon", 
+ main = "Histogram Example of Density ") 

绘制 归 一 化 直方 图 后 ， 再 为 其 添加 一 条 密度 曲线 是 常见 的 做 法 。 密 度 曲 线 为 数据 的 分 布 提 
供 了 一 种 更 加 平滑 的 描述 。 下 面 这 段 代 码 中 使 用 line0) 函 数 在 归 一 化 的 直方 图 上 多 加 了 一 条 红色 、 
双 倍 默认 线 宽 的 曲线 ， 其 执行 结果 如 图 5-11 中 的 左 图 所 示 。 
> hist(mpg, breaks = 12, col = "bluel", ylim = ¢(0, 0.12), 
+ xlim = c(i10, 35}, freq = FALSE, xlab = "Miles/Gallon", 
+ main = "Histogram Example with Density'Curve") 
> lines (density(mpg), col = 'red', lwd = 2) 

下 面 这 段 代码 输出 的 结果 与 上 述 代 码 类 似 。 区 别 在 于 图 中 全 加 的 曲线 是 根据 原始 数据 的 均 
值 和 标准 差 估算 而 得 的 正 态 分 布 曲线 。 最 后 我 们 还 用 box() 函 数 来 为 图 形 加 上 了 一 个 框 。 代 码 的 
输出 结果 如 图 5-11 中 的 右 图 所 示 。 注 意 为 了 添加 这 条 正 态 曲线 ， 纵 轴 需 要 被 调整 为 频数 。 
> 五 <= hist(mpg, breaks = 12)0c6l = "bue", xlim= c(i0, 95) 
+ xlab = "Miles/Gallon", main = "Histogram Example with Normal Curve") 
> xfit <- seql(min(mpg), max(mpg), length = length(mpg)) ，， 
> yfit <- dnorm(xfit, mean=mean(mpg), sd=sd{(mpg)) 
> yfit <- yfit*diff (h$mids{1:2])*length (mpg) 
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> ines(xtit, yfity!col = "red", lwd= 2) 
> box() 





> 
Fa 
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20 25 30 35 5 20 25 
Miles/Gallon Miles/Gallon 


5-11 添加 密度 曲线 











5.3” 核 密 图 


我 们 已 经 学 习 了 绘制 指定 分 布 类 型 的 概率 密度 函数 图 形 的 方法 ， 而 对 于 未 明确 知晓 分 布 类 
型 的 随机 变量 ， 也 已 多 次 使 用 核 密度 曲线 对 其 进行 描述 。 核 密度 估计 是 用 于 估计 随机 变量 概率 
密度 函数 的 一 种 非 参 数 方法 。 本 书 并 不 打算 对 其 中 涉及 的 数学 原理 进行 深 挖 ， 但 仍 须 指出 ， 核 
密 图 是 一 种 值得 推荐 的 用 以 观察 连续 型 变量 分 布 的 有 效 方法 。 

下 面 的 代码 用 于 绘制 mtcars 数据 集中 mpg 数据 的 核 密 图 , 这 也 是 最 简 形 式 的 核 密 图 绘制 方 
法 ， 代 码 执行 结果 如 图 5-12 中 的 上 图 所 示 。 


> QQ xn density (mpg) 
”pLot(d) 


由 下 面 这 段 代 码 绘制 的 核 密 图 要 复杂 一 些 。 首 先 ， 我们 为 图 表 增 加 了 一 个 标题 。 然 后 设置 
了 图 形 的 填充 颜色 和 边界 颜色 。 代 码 的 执行 结果 如 图 5-12 中 的 下 图 所 示 。 
> plot(d, main = "Density of Miles/Gallon") 


> polygon(d, col = "wheat", border = "blue") 
> rug(jitter(mpg,; amount = 0.01), col = "brown™") 


上 述 代 码 的 最 后 一 行 旨 在 为 显示 结果 添上 一 幅 轴 须 图 (rug plot)。 轴 须 图 是 实际 数据 值 的 一 种 
一 维 呈 现 方式 。 图 5-12 中 横 轴 上 的 每 一 个 小 线段 都 表示 了 一 个 样本 值 。 样 本 数据 中 出 现 相 同 的 
值 是 在 所 难免 的 ， 尤 其 是 在 数据 量 较 大 的 时 候 ， 通 常 也 将 这 些 相同 的 数据 值 称 为 “ 结 ”(tie)。 


wwaibbt.cm00O00000 
78 


第 5 章 实用 统计 图 形 


如 果 数 据 中 存在 很 多 结 ， 就 可 以 使 用 上 述 示例 代码 所 提供 的 写法 来 将 轴 须 图 的 数据 打 散 。 示 例 
代码 的 做 法 是 将 为 每 个 数据 点 添加 一 个 小 的 随机 值 , 即 一 个 在 amount 之 间 均 匀 分 布 的 随机 数 ， 
以 避免 重 倒 的 点 产生 影响 。 如 果 不 刻 意 做 这 样 的 处 理 ， 轴 须 图 的 一 般 语法 如 下 。 


> rug(mpg, col = "brown"™) 





000 003 0.06 


N=32 Bandwidth=2 477 


Density of MilesiGalion 





000 003 006 





N= 32 Bandwidth=2.477 
图 5-12 核 密 图 


另外 ， 读 者 应 该 已 经 注意 到 在 5.2 节 最 后 给 出 的 示例 代码 也 试图 向 绘制 好 的 直方 图 中 添加 
核 密 图 ， 但 彼 时 所 采用 的 函数 是 lines()。 这 是 因为 plot() 函 数 会 创建 一 幅 新 的 图 形 ， 所 以 要 在 一 
幅 现成 的 图 形 上 有 登 加 一 条 密度 曲线 ， 就 需要 使 用 函数 lines()。 


核 密 图 还 可 以 用 于 比较 组 间 差 异 ， 另 外 一 个 常用 于 进行 组 间 差 异 比较 的 统计 图 形 是 5.4 节 
将 要 介绍 的 箱 线 图 。 在 下 面 这 段 示例 代码 中 ， 我 们 将 不 同 的 车 型 按照 气缸 的 数量 分 为 三 类 ， 即 
4 个 、6 个 或 者 8 个 气缸 ， 然 后 分 别 绘 制 了 这 三 类 汽车 之 mpg 数据 的 核 密 图 。 代 码 执行 结果 如 
图 5-13 中 的 左 图 所 示 ， 其 中 三 种 线条 分 别 对 应 三 种 不 同 气 缸 车 型 的 mpg 核 密 图 。 在 核 密 图 的 
县 加 图 中 ， 不 同 组 所 含 值 的 分 布 形 状 ， 以 及 不 同 组 之 间 的 重印 程度 都 显而易见 。 所 以 这 种 方式 
确实 为 跨 组 比较 观测 提供 了 便利 。 
> plot(density(mtcars [mtcars$cyl==4, ]$mpg), col = "red", lty = 1, 
由 
> Par (new = TRUE) 
> plot (density (mtcars[mtcars$cyl==6, ]$mpg), col = "blue", lty = 2， 


+ xlim = c(5, 40), ylim = &¢(0, 0.25), xlab = "", main = "") 
> Par (new = TRUE) 
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图 5$-13 将 核 密 图 用 于 组 间 差 异 对 比 


如 果 你 对 组 内 分 布 情况 兴趣 不 大 ， 而 更 关注 于 组 间 差 异 以 及 不 同 组 之 间 的 重 谷 程度 ， 那 么 
在 假设 样本 满足 某 种 分 布 〈 一 般 会 认为 近似 正 态 分 布 ) 的 前 提 下 ， 可 以 根据 指定 分 布 类 型 来 绘 
制 三 加 的 概率 密度 曲线 。 尽 管 概率 密度 曲线 并 不 与 本 节 讨 论 的 核 密度 完全 等 同 ， 但 二 者 仍 有 诸 
多 相似 、 相 通 之 处 。 特 别 是 针对 我 们 当前 的 需求 ， 即 比较 不 同 组 之 间 的 差异 及 重 登 程度 ， 绘 制 
登 加 的 概率 密度 曲线 也 会 取得 同样 的 效果 。 下 面 给 出 示例 代码 ， 其 执行 结果 如 图 5-13 中 的 右 图 
所 示 。 
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> legend{("topright", legend = text.legend, lty=c(1,2,3), 
+ col = c("red", "blue", "green")) 


5.4 ” 箱 线 图 


箱 线 图 由 美国 著名 统计 学 家 约翰 。 图 基 (John Tukey) 于 20 世纪 70 年 代 发 明 ， 并 因 形状 
如 箱子 而 得 名 。 箱 线 图 通过 绘制 一 组 数据 的 “最 大 值 、 最 小 值 、 中 位 数 、 下 四 分 位 数 及 上 四 分 
位 数 ” 这 五 个 指标 来 显示 该 组 数据 的 分 散 情况 。 它 在 诸多 领域 有 着 广泛 应 用 。 


5.4.1 箱 线 图 与 分 位 数 

我 们 结合 一 组 样本 数据 来 对 箱 线 图 进行 解释 , 这 里 仍然 以 数据 集 mtcars 中 的 mpg 数 据 为 例 ， 
对 这 一 指标 画 出 箱 线 图 ， 语 句 如 下 。 
boxplot (mpg, main="Box plot", ylab="Miles per Gallon") 

由 上 述 语句 生成 的 图 形 如 图 5-14 所 示 , 其 中 的 中 文 标注 是 为 了 便于 读者 理解 而 手工 加 上 去 
的 。 该 图 表明 ， 在 所 提供 的 32 个 车 型 样本 中 ,每 加 仑 汽油 行驶 里 程 数 的 中 位 数 是 19.2， 最 小 值 
为 10.4， 最 大 值 为 33.9， 上 四 分 位 数值 是 22.8， 下 四 分 位 数值 是 15.35， 即 50% 的 值 都 落 在 了 
15.35 和 22.8 之 间 。 


Box plot 


J 


一 一 下 四 分 位 数 


[= 
- 
而 
© 
部 
a 
nm 
2 
三 


一 |: 下 关键 位 








图 5-14 ” 箱 线 图 示例 


读者 一 定 会 好 奇 这 些 数 值 如 何 才能 从 图 中 精确 地 读 出 。 其 实 , 只 要 执行 函数 boxplot.stats()， 
即 可 输出 用 于 构建 图 形 的 统计 量 。boxplot.stats() 的 语法 格式 如 下 : 


boxplot.stats(x, coef = 1.5, do.conf = TRUE, do.out = TRUE) 


其 中 x 表示 输入 的 数据 集 ， 后 三 个 是 可 选 参 数 ， 上 述 声明 中 已 经 给 出 了 它们 的 默认 值 ， 稍 后 我 们 
再 来 分 析 它 们 的 意义 。 下 面 给 出 利用 boxplot.stats() 得 到 绘制 上 述 箱 线 图 统计 量 的 代码 ， 如 下 : 
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> boxplot.stats (mpg) 

$stats 

(J T0400 5635 工 9520222.80 33290 

$n 

[TS2 

SeccnE 

[1] 17.11916 21.28084 

$out 

numeric{(0) 

可 见 stats 后 面 所 列 的 就 是 “下 关键 位 、 下 四 分 位 数 、 中 位 数 、 上 四 分 位 数 及 上 关键 位 ”这 五 个 
指标 。 在 boxplot.stats() 的 输出 结果 中 ，n 表 示 数 据 集 中 元 素 的 个 数 。out 给 出 了 离 群 点 的 个 数 ， 
上 述 结果 中 不 存在 离 群 点 ， 后 续 的 例子 中 读者 将 会 看 到 出 现 离 群 点 的 情况 。 


函数 声明 式 中 的 参数 coef 指定 了 “ 须 ” 的 长 度 的 极限 值 ， 须 就 是 指 图 中 盒子 上 下 两 侧 的 延 
伸 线 。 它 的 默认 值 为 1.5, 这 表示 两 条 须 的 延伸 极限 不 会 超过 盒 型 各 端 加 1.5 倍 四 分 位 距 的 范围 。 
此 范围 以 外 的 值 就 是 离 群 点 ， 它 们 将 以 圆 点 的 形式 来 标 出 。 如 果 数 据 集中 所 有 元 素 的 取 值 范围 
都 不 超过 这 对 上 、 下 极限 ， 那 么 首先 不 会 出 现 离 群 点 ， 其 次 图 中 的 上 关键 位 和 下 关键 位 就 分 别 
对 应 数据 集中 的 最 大 值 和 最 小 值 。 如 果 在 上 关键 位 之 上 出 现 离 群 点 ， 那 么 数据 集 的 最 大 值 就 位 
于 这 些 上 离 群 点 中 , 此 时 上 关键 位 就 是 离 上 四 分 位 1.5 倍 四 分 位 距 的 位 置 ( 如 果 参 数 coef 取 默 认 
值 的 话 )。 相 对 应 地 ， 如 果 在 下 关键 位 之 下 出 现 离 群 点 ， 那 么 数据 集 的 最 小 值 就 位 于 这 些 下 离 群 
点 中 ， 此 时 下 关键 位 就 是 离 下 四 分 位 1.5 倍 四 分 位 距 的 位 置 《 如 果 参 数 coef 取 默 认 值 的 话 )。 


如 果 参 数 coef 被 置 为 0， 那 么 两 条 须 的 延伸 极限 就 会 一 直达 到 数据 集中 元 素 的 极限 位 置 ， 
彼 时 图 中 将 不 会 出 现任 何 离 群 点 。 此 时 ， 上 关键 位 就 对 应 于 最 大 值 , 下 关键 位 就 对 应 于 最 小 值 。 
最 后 需要 指出 的 是 ， 参 数 do.conf 和 do.out 是 两 个 布尔 型 变量 ， 默 认 值 为 TRUE。 如果 do.conf 
被 置 为 FALSE， 那 么 结果 中 的 conf 就 会 为 NULL。 同 理 ， 如 果 我 们 将 do.out 置 为 FALSE， 那 
么 结果 中 的 out 也 会 为 NULL。 


事实 上 ,在 R 中 获取 一 组 数据 的 “最 大 值 、 最 小 值 、 中 位 数 、 下 四 分 位 数 及 上 四 分 位 数 ” 
这 五 个 统计 指标 的 最 常用 方法 是 使 用 fivenum() 函 数 ， 例 如 : 
> fivenum (mpg) 
El POW40 Tb 3 ho920 22480 S390 

需要 说 明 的 是 ， 函 数 fivenum() 和 boxplot.stats() 计 算 中 位 数 、 下 四 分 位 数 及 上 四 分 位 数 的 方 
法 都 是 以 中 位 数 计算 为 基础 的 。 在 统计 学 中 ， 四 分 位 数 是 把 所 有 数值 由 小 到 大 排列 并 分 成 四 等 
份 ， 处 于 三 个 分 割 点 位 置 的 数值 就 是 四 分 位 数 ， 包 括 下 四 分 位 数 、 中 位 数 和 上 四 分 位 数 。 当 一 
组 元 素 按 从 小 到 大 的 顺序 进行 排列 时 ， 我 们 用 {x1, xz,…, xn} 来 表示 ， 若 元 素 的 个 数 n 为 奇数 时 ， 
中 位 数 为 x[0w41)yz]; 若 ? 为 偶数 时 ， 中 位 数 为 xmyz] 与 xiowyz+d 的 平均 值 。 当 使 用 函数 fivenum() 
或 者 boxplot.stats() 来 计算 上 、 下 四 分 位 数 时 ， 原 来 有 序 的 元 素 集 将 被 一 分 为 二 ， 并 用 上 面 计算 
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中 位 数 的 算法 分 别 对 两 个 子 集 进行 处 理 。 下 面 这 个 例子 很 好 地 说 明了 这 种 算法 : 
he 

[12] 2 510 1 13 20 30 35 由 其 有 8 个 数 信 ， 中 位 数 居 (11413)/2t2 

> fivenum(x) 

T0950 [+ 第 让 评 代 21 日 J0 419 | 第 忆 耻 5 1320 20 35 
DY 

[112 5 10 11 13 20'30 # 共 有 7 个 数值 ， 注 意 划分 子 集 时 不 能 有 元 素 遗 漏 

> fivenum!(y) 
人 


根据 上 述 原理 ， 笔 者 自行 实现 了 一 个 与 fivenum() 功 能 相同 的 函数 ， 如 下 : 








> myifivenum<- -function tx) 
二 XSOrt(xw) 
+ 有 < length(x) 
十 na <- floort (nm 3)/2)/2 
十 他 Ka 人 na Cn Rl) /2 my) 
十 veturn(0,S 二 (xtfloor(tall rt xlceilinald)T)) 
ea 
除了 fivenum(O 以 外 ,在 R 中 ， 还 有 另外 两 个 函数 也 常常 用 来 计算 “最 大 值 、 最 小 值 、 中 位 
数 、 下 四 分 位 数 及 上 四 分 位 数 ” 这 五 个 统计 指标 。 它 们 就 是 函数 summary0 和 quantile()。 但 是 


它们 在 计算 四 分 位 数 时 所 采用 的 方法 与 函数 fivenum() 略 有 不 同 。 
函数 summary0) 是 一 种 从 大 量 数据 中 直接 获取 描述 统计 的 方法 ， 对 于 数值 型 向 量 ， 它 所 得 
之 结果 包括 了 上 述 五 个 指标 ， 外 加 一 个 平均 值 。 例 如 : 


> summary (mpg) 
Min., lst Ou,, Median Mean 3rd Qu. Max. 
OU ED A 8920 O00 2 0 


函数 quantile() 的 作用 是 基于 给 定 的 分 位 数 对 原 数 据 集 进行 采样 ， 它 的 函数 声明 如 下 : 


quantibkel(xn probs= seq (0 Lr ni0 25), tarrmum FALSD, 

















names = TRUE,;, type = 7 ,..) 

这 里 x 表 示 待 采样 的 数据 集 ， 其 余 均 为 可 选 参数 。 其 中 ， 参 数 probs 指明 了 采样 间隔 ， 也 就 是 分 
位 数 , 它 的 默认 值 是 seq(0, 1, 0.25), 即 表明 此 时 分 位 数 是 (0.00, 0.25, 0.50, 0.75, 1.00)。 参数 na.rm 
的 默认 值 是 一 个 布尔 值 ， 如 果 将 其 置 为 TRUE， 则 表示 在 计算 分 位 数 前 ， 所 有 的 无 效 值 (NA 或 
者 NaN) 都 会 被 剔除 。 参 数 names 也 是 一 个 布尔 值 ， 如 果 它 被 置 为 TRUE， 那么 输出 结果 就 会 
有 一 个 names 属性 。 最 后 ， 参 数 type 是 一 个 介 于 1 一 9 之 间 的 整数 ， 它 指示 了 具体 计算 过 程 中 
分 位 数 计算 的 9 种 不 同 算法 (其 中 1~3 都 属于 离散 采样 分 位 法 ， 其 余 则 是 连续 采样 分 位 法 )。 
具体 每 种 算法 有 何不 同 ， 限 于 篇 幅 这 里 不 再 一 一 详 述 ， 有 兴趣 的 读者 可 以 参阅 R 的 帮助 文档 以 
了 解 更 多 细节 。 下 面 给 出 一 个 使 用 quantile() 的 例子 。 
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> quamtile (mpg) 

bel tog. SOW | TER 00s 
OO LouA2S T9200 22.800 .133.900 

易 见 ， 函 数 summary0 和 quantile() 所 得 之 结果 基本 一 致 ( 只 是 保存 精度 上 有 些微 差异 但 
二 者 所 得 之 结果 与 前 面 ffvenum() 函 数 的 计算 结果 在 四 分 位 上 有 明显 出 入 。 这 主要 源 于 默认 情况 
下 〔( 即 参数 type = 7)， 函 数 quantile() 是 基于 分 位 数 这 个 概念 来 计算 四 分 位 数 的 ， 而 fivenum() 
函数 在 计算 四 分 位 数 时 仅仅 是 迭代 使 用 了 计算 中 位 数 的 算法 。 在 此 给 出 一 个 自行 实现 的 与 默认 
情况 下 之 quantile0 功 能 相同 的 函数 ， 供 有 兴趣 的 读者 研究 使 用 ， TUNE Ps 


> my.qnantile <- function(x)l 
ml dendgth(x) 

Probs = seql0, 1, 0,.25) 
tndew ce dm BLORs 











Lo < floor (index) 
hi < ceorlingl(index) 


XR < sort(x,, partial'= umnioue{(otlo, hi))) 
如 BR- 站 人 oj 

< which(index > 1oe) 

ham Cinder "Loy lL 

ws li em hy mt + + inylul) 
return(qs) 


} 


5.4.2 ”使 用 并 列 箱 线 图 

箱 线 图 不 仅 可 以 展示 单个 变量 (如 5.4.1 节 所 示 之 范例 )， 还 可 以 展示 分 组 变量 。 此 时 ， 箱 
线 图 就 变 成 了 展示 组 间 差 异 的 绝 佳 手段 。 当 我 们 将 函数 boxplot() 中 的 数据 参数 由 之 前 使 用 的 向 
量 蔡 换 成 形 如 y~4 一 样 的 公 \ 式 时 ， 这 将 为 类 别 型 变量 4 的 每 个 值 并 列 地 生成 数值 型 变量 y 的 箱 线 
图 .公式 y~4* B 则 将 为 类 别 型 变量 4 和 B 所 有 水 平 的 两 两 组 合生 成 数值 型 变量 y 的 箱 线 图 ,此 外 ， 
将 参数 varwidth 的 值 置 为 TRUE 将 使 箱 线 图 的 宽度 与 其 样本 大 小 的 平方 根 成 正比 。 将 参数 
horizontal 的 值 置 为 TRUE 可 以 达到 反 转 坐标 轴 方 向 的 目的 。 


基于 在 核 密 图 中 曾经 使 用 过 的 例子 ， 下 面 的 代码 将 使 用 并 列 箱 线 图 重新 研究 4 氏 、6 和 和 8 
饶 发 动机 对 每 加 仑 汽油 行驶 的 英里 数 的 影响 。 


> boxplot (mpg ~ cyly data ='mtcars, main = "Car Mi 
+ xiab = "Number of Cylinders", ylab = ilesycall 


上 述 代码 的 执行 结果 如 图 5-15 所 示 ， 从 中 可 以 看 到 不 同 组 间 油 耗 的 区 别 非常 明显 。 同时 也 可 以 
发 现 ，6 包车 型 的 每 加 仓 汽油 行驶 的 英里 数 分 布 较 其 他 两 类 车 型 更 为 均匀 。 与 6 缸 和 8 缸 车 型 





+ 
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相 比 ，4 缸 车 型 的 每 加 仑 汽油 行驶 的 英里 数 散布 最 广 ， 而 且 是 正 偏 的 。 另 外 ， 在 8 缸 组 中 还 有 
一 个 离 群 点 。 


Car Mileage Data 


Miles/Gallon 








Number of Cyinders 
图 5-15 并 列 箱 线 图 
箱 线 图 的 一 个 常用 变种 是 所 谓 的 凹 槽 箱 线 图 ， 在 R 代码 中 可 以 通过 将 函数 boxplot(O) 中 的 参 
数 notch 置 为 TRUE 来 获得 。 若 两 个 箱 的 止 槽 互 不 重 伏 ， 则 表明 它们 的 中 位 数 有 显著 差异 。 以 
下 代码 将 为 车 型 油耗 示例 创建 一 幅 含 凹 槽 的 箱 线 图 。 代 码 执行 结果 如 图 5-16 所 示 ， 从 中 可 以 看 
到 ，4 氏 、6 氏 、8 缸 车 型 的 油耗 中 位 数 是 不 同 的 。 随 着 汽缸 数 的 减少 ， 油 耗 明 显 降低 。 


Car Mileage Data 


MilesfGallon 





4cyinders 6 cyiinders 8 cylinders 


图 5-16 ”四 槽 箱 线 图 
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boxplot (mpg ~ cyl, data = mtcars, notch = TRUE7 

main = "Car Mileage Data", ylab = "Miles/Gallon", xaxt = "n”) 
axis(side = 1, at = c(1i, 2, 3), labels = c("4 cylinders", 

"6 cylinders", "8 cylinders")) 


上 述 代 码 中 另外 一 个 值得 留意 的 地 方 是 我 们 设法 对 默认 的 横 轴 刻度 标签 进行 蔡 换 ， 对 于 那些 非 
数值 类 型 的 标签 ， 这 种 方法 更 加 灵活 ， 而 且 使 得 结果 更 加 易 读 。 


正如 在 本 小 节 最 开始 曾经 谈 到 的 ， 使 用 boxplot0 还 可 以 实现 为 多 个 分 组 因子 绘制 箱 线 图 的 


功能 。 下 面 这 段 示例 代码 为 不 同和 缸 数 和 不 同 变速 箱 类 型 的 车 型 绘制 了 每 加 仑 汽油 行驶 英里 数 的 
箱 线 图 。 其 中 ， 我 们 通过 修改 参数 col 的 值 为 箱 线 图 进行 了 着 色 。 由 于 颜色 是 循环 使 用 的 ， 因 
此 达到 了 对 自动 变速 箱 和 标准 变速 箱 加 以 区 分 的 目的 。 


TRAK 


Cylef = factor (RESXSGLES EE GCG(4, 6, 8), 

asede = ud cylev yy GO Cys 8 ly 

am.f <- factor (am levels = c(0, 1), labels = c("auto","std")) 
boxplot (mpg ~ am.f*cyl.f, data = mtcars, varwidth = TRUE, 

col = c("wheat", "orange"), xlab = "Types", 

main = "MPG Distribution by Multi-types") 


上 述 代码 的 执行 结果 如 图 5-17 所 示 ， 该 图 再 一 次 直观 地 反映 出 油耗 随 生 数 的 下 降 而 减少 这 一 统 
计 结 论 。 对 于 4 饶 和 6 和 饶 车 型 ,标准 变 速 箱 的 油耗 更 高 。 但 是 对 于 8 和 缸 车 型 ， 油 耗 似乎 没有 差 
别 。 而 且 从 箱 线 图 的 宽度 看 出 ，4 和 缸 标 准 变速 箱 的 车 型 和 8 饶 自动 变速 箱 的 车 型 在 数据 集中 最 
为 常见 。 


MPG Distribution by Muiti-types 











auto 4cyls std4cyls auto6cys std6 cyls auto.8cyls std.8 cyls 


Types 


图 5-17 多 因子 复合 的 箱 线 图 示例 
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5.5 条 形 图 


条 形 图 有 时 也 称 柱状 图 ， 是 一 种 用 长 方形 的 长 度 来 描述 变量 取 值 大 小 的 统计 图 表 。 它 通过 
垂直 的 或 水 平 的 条 形 展示 了 变量 的 取 值 分 布 , 常用 来 比较 两 个 或 以 上 (不 同时 间或 不 同 条 件 的 ) 
类 别 型 数据 的 大 小 ， 对 于 小 型 数据 集 的 分 析 比 较 适用 。 


5.5.1 基本 条 形 图 及 调整 

在 RR 语言 中 ， 函 数 barplot0 用 以 绘制 条 形 图 。 该 函数 接收 的 数据 参数 只 能 是 一 个 向 量 或 一 
个 矩阵 。 现 有 一 组 来 自 世界 银行 《世界 发 展 指标 》 的 数据 , 该 组 数据 反映 了 2010 年 美国 、 日本、 
中 国 、 巴 西 和 印度 五 国 的 GDP 单位 能 源 消耗 情况 。GDP 单位 能 源 消耗 是 指 平均 每 千克 石油 当 
量 的 能 源 消耗 所 产生 的 按 购 买 力 平价 计算 的 GDP。 下 面 这 段 代码 用 条 形 图 对 该 组 数据 进行 了 可 
视 化 表示 ， 代 码 执行 结果 如 图 5-18 中 的 左 图 所 示 。 该 图 较为 直观 地 反映 了 我 国产 业 能 耗 高 、 产 
能 严重 落后 的 现状 。 


my ata 二 二 二 大 区区 全 8 nh. 0 Sy AL, Svan) nrow. =) 




















colnames (mv.datay <=0C ("US "Japan', “China, "Braztil rs "India’) 
> barplot (my.data, ylim = c(0, round (max (my.data))), 
+ 
+ 

















main = "Barplot Example (Vertical)", 
xlab = "Countries"”, ylab = "GDP Per Energy") 
Barplot Example (Vertical) Barpiot Example (Horizontal) 
ww 十 
| 
癌 
到 四 
Pi 
1 8 
A [5 
总 
© | 
| 
SY f T | 
US Japan China Brazj Inda 0 2 4 6 8 
Countnes GDP per Energy 











图 5-18 垂直 条 形 图 和 水 平 条 形 图 
如 果 修 改 参 数 horiz 的 默认 值 ， 将 其 置 为 TRUE， 那 么 将 得 到 一 幅 水 平展 示 的 条 形 图 。 下 面 
这 段 代 码 演 示 了 水 平 条 形 图 的 绘制 方法 ， 其 执行 结果 如 图 5-18 中 的 右 图 所 示 。 


> barplot (my.data, xlim = c(0, round (max (my.data))), 
+ horiz = TRUE, main = "Barplot Example (Horizontal)", 
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+ xlab = "GDP per Energy", ylab = "Countries") 


函数 barplot() 中 其 他 可 选 参数 的 用 法 ， 例 如 标题 、 横 纵 坐 标 轴 标 签 等 ， 都 与 之 前 其 他 图 表 
绘制 时 的 情况 类 似 ， 这 里 不 再 袭 述 。 但 仍 有 一 些 可 以 对 条 形 图 的 外 观 进行 微调 的 方法 值得 我 们 
在 此 稍 加 留意 。 一 个 比较 常见 的 问题 是 随 着 条 形 数 目的 增多 或 者 单独 几 个 条 形 标 签 的 内 容 过 长 
时 ， 条 形 的 标签 可 能 会 开始 重合 。 此 时 ， 可 以 使 用 参数 cex.names 来 减 小 字号 。 将 其 指定 为 小 
于 1 的 值 可 以 缩小 标签 的 大 小 。 另 外 一 个 可 选 的 方法 是 调整 标签 显示 的 方向 。 在 下 面 这 段 代 码 中 ， 
我 们 将 2010 年 中 国 的 GDP 单位 能 源 消 耗 情 况 与 经 合 组 织 成 员 国 家 和 中 等 收入 国家 进行 对 比 。 
> GDP.Energy <- c(3.77，6.87，4.56) 
> par (mar=c (4,10,3, 2 
> par(las = 1) : 
> barplot (GDP .Energy, horiz = TRUE, cex.names = 0.9, 

+ names.arg = cl"China", "OECD Countries","Middle Income Countries")) 


> -title (main = list("GDP per Unit Energy Roneumpt en”, 
PooK nm 2 CoO mi Mrown ,Eont ml 


上 述 代 码 的 执行 结果 如 图 5-19 所 示 。 其 中 ， 可 选 参数 names.arg 指定 了 一 个 字符 向 量 作为 
条 形 的 标签 名 。 另 外 ， 通 过 将 las 的 值 置 为 2， 该 段 代 码 还 实现 了 对 条 形 标签 方向 的 旋转 。 为 了 
让 标签 显示 更 加 合适 ， 我 们 还 通过 修改 mar 的 值 来 增加 了 图 形 左 侧 边界 的 大 小 。 最 后 代码 还 调 
整 了 标题 的 显示 形式 。 


GDP per Unit Energy Consumption 





图 5-19 微调 后 的 条 形 图 


5.5.2 ”堆砌 与 分 组 条 形 图 


现在 有 一 组 来 自 《 中 国 统计 年 鉴 》 的 数据 ， 它 反映 了 2009 年 中 国 和 德国 三 种 产业 就 业 人 员 
比重 的 对 比 情况 。 我 们 用 下 列 代码 将 其 录入 一 个 矩阵 中 。 


> my.data <- matrix(c(38:1; 1.7, 27.8, 2827， a 69.6), ni 
> rownames (my- data) <- cl("China", "Germany") 。 
> colnames (my.data) <- el(rprinary", OOORRry WE 
> my.data 2 
primary secondary A 
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China Sy 
Germany ee i ee A 

考虑 如 何 用 条 形 图 来 对 该 组 数据 进行 可 视 化 表示 。 这 时 我 们 就 需要 用 到 所 谓 的 堆砌 条 形 图 
与 分 组 条 形 图 。 在 barplot() 函 数 中 ， 参 数 beside 的 默认 值 为 FALSE， 此 时 和 矩阵 中 的 每 一 列 都 将 
生成 图 中 的 一 个 条 形 ， 各 列 中 的 值 将 分 别 生 成 一 段子 条 ， 并 逐个 堆砌 起 来 ， 此 时 R 将 绘制 一 幅 
堆砌 条 形 图 。 若 将 beside 置 为 TRUE， 则 矩阵 中 的 每 一 列 都 表示 一 个 分 组 ， 各 列 中 的 值 将 并 列 
展示 而 不 是 逐个 堆 释 。 

来 看 下 面 这 段 示例 代码 ， 它 所 绘制 的 就 是 一 幅 堆 砌 条 形 图 。 我 们 同时 修改 参数 col 的 值 来 
为 绘制 的 条 形 添 加 了 颜色 。 此 外 ， 该 段 代 码 还 为 最 终 的 图 表 添 加 了 图 例 标签 。 代 码 执行 结果 如 
图 5-20 所 示 。 


> barplot (my.data main = "Grouped Barplot", xlab = "Industries", 
+ ylab = "Employment (%$)",col = c("wheat", "orange"), 
+ legend = rownames (my.data), args.legend = list(x = "top")) 








Grouped Barplot 


【= 
一 于 Germany 
已 China 
© 
Le 
次 
评 8 
并 
仿 
E o 
Ww 只 


0 20 


tertiary 





图 5-20 ”堆砌 条 形 图 


如 果 你 感觉 堆砌 条 形 图 对 于 数据 展示 的 效果 并 不 理想 , 那么 分 组 条 形 图 就 将 是 不 错 的 选择 。 
下 面 这 段 示 例 代 码 绘制 了 一 幅 分 组 条 形 图 ， 我 们 通过 矩阵 里 的 最 大 值 来 设法 控制 图 表 中 纵 轴 刻 
度 的 取 值 范围 ， 从 而 实现 最 佳 展示 效果 。 代 码 执 行 结果 如 图 5-21 所 示 。 
> barplot (my.data, main = "Grouped Barplot", 
+ ylim = (0, round(max(my.data))), xlab = "Industries", 
+'¥iab = "Employment (%)",col = Cc("wheat", "orange"), beside=TRUE, 
+ legend = rownames (my.data), args.legend = list(x = "top")) 
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Grouped Barplot 


RR 
口 China 
人 量 Germany 





Employmentt9%) 








图 5-21 分 组 条 形 图 


最 后 我 们 来 考虑 堆砌 条 形 图 的 一 个 更 为 常用 的 变种 一 荆棘 图 。 在 棘 状 图 中 ， 条 形 块 的 高 
度 不 再 表示 绝对 的 数值 ， 而 是 表示 占 比 。 为 此 ， 草 环 图 中 的 条 形 块 需要 进行 一 定 的 缩放 ， 从 而 
保证 每 个 条 形 的 高 度 均 为 1。 绘 制 灰 状 图 需要 用 到 vcd 包 中 的 spine() 函 数 。 下 面 给 出 示例 代码 。 
> library(ved) 
> spine(my.data, main="Employment in Three Industries") 


上 述 代 码 的 执行 结果 如 图 5-22 所 示 , 图 中 清晰 地 显示 出 德国 的 第 三 产业 在 吸纳 就 业 方面 具 
有 绝对 优势 ， 从 事 第 一 产业 的 人 员 比 重 则 非常 低 。 而 我 国 的 第 一 、 二 、 三 产业 就 业 人 员 比 重 则 
差异 不 大 。 另 外 我 们 也 不 难 发 现 ， 草 棘 图 的 作用 其 实 更 像 是 饼 状 图 ， 它 也 是 一 种 用 于 展示 类 别 
型 变量 分 布 占 比 的 流行 工具 。 





Employmentin Three Industries 


tertiary 
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面 
已 
二 
5S 
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图 5-22 ”荆棘 图 示例 
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5.6 分 位 数 与 QQ 图 


设 有 容量 为 n 的 样本 观察 值 xi, x2,… ,xn， 样本 p 分 位 数 (0 < p < 1) 记 为 x。， 它 具有 以 下 两 
个 性 质 ; (1) 至 少 有 np 个 观察 值 小 于 或 等 于 xy ,或 者 说 样本 中 小 于 或 等 于 x 的 观察 值 占 p x 100%; 
(2) 至 少 有 n(1 一 p) 个 观察 值 大 于 或 等 于 x, ， 或 者 说 样本 中 大 于 或 等 于 x 的 观察 值 占 
(1—p) x100%。 

样本 p 分 位 数 可 按 以 下 法 则 求 得 ， 将 xi,xz,…,xn 按 从 小 到 大 的 顺序 排列 成 
XI) SX) SE *** SXn)e 

(1) 若 np 不 是 整数 ， 则 只 有 一 个 数据 满足 定义 中 的 两 点 要 求 ， 该 数据 位 于 大 于 np 的 最 小 整 
数 处 , 即位 于 [np] + 1 处 的 数 。 例 如 ,n = 12,p = 0.9, 则 np = 10.8,n(1 一 p) = 1.2, 那么 xy 的 位 置 
应 满足 至 少 有 10.8 个 数据 小 于 或 等 于 xp， 据 此 我 们 可 以 断定 xp 应 位 于 第 11 或 者 大 于 第 11 个 顺 
序 观察 值 的 位 置 ， 并 且 至 少 有 1.2 个 数据 大 于 或 等 于 xp， 即 xy 应 位 于 第 11 或 者 小 于 第 11 个 顺 
序 观察 值 的 位 置 ， 最 终 xy 应 该 位 于 第 11 个 顺序 观察 值 的 位 置 。 

(2) 如 果 np 是 整数 ， 例 如 n = 20，p = 0.95，np = 19， 则 x 的 位 置 应 满足 至 少 有 19 个 数 
据 小 于 或 等 于 x,， 据 此 可 知 xy 应 该 位 于 第 19 个 或 者 大 于 第 19 个 顺序 观察 值 的 位 置 ， 并 且 至 少 
有 一 个 数据 大 于 或 等 于 x,， 所 以 x 应 该 位 于 第 20 或 者 小 于 第 20 个 顺序 观察 值 的 位 置 。 因 此 ， 
第 19 和 第 20 个 数据 都 符合 要 求 ， 此 时 就 取 二 者 的 平均 数 作为 xy 的 值 。 

综 上 所 述 ， 我 们 得 到 如 下 结论 : 
Ee np 非 整 数 


Xp = 41 
7 [xcnp) 二 Xip+15)] np 是 整数 


特别 地 ， 当 = 0.5 时 ，0.5 分 位 数 xos 也 记 为 8; 或 M， 称 为 样本 中 位 数 ， 即 有 : 
X(tn/2]+1)’ n 是 奇数 
Xo.s = 91 
7 [ze 十 5 小 ?是 偶数 
易 知 ， 当 n 是 奇数 时 ， 中 位 数 xos 就 是 za)sxe)s… <xtn 这 一 顺序 观察 值 中 间 的 一 个 数 ; 而 当 n 是 
偶数 时 ， 中 位 数 xos 就 是 xa<xto 和 …&xoo 中 最 中 间 的 两 个 数 的 平均 值 。 

此 外 , 0.25 分 位 数 xo.zs 被 称 为 下 四 分 位 数 , 又 记 为 Q1; 0.75 分 位 数 xo7s 被 称 为 上 四 分 位 数 ， 
又 记 为 Qs。 

前 面 已 经 介绍 过 ， 如 果 R 中 分 布 的 函数 名 为 funce， 形 如 qfunc 的 函数 提供 了 相应 的 分 位 数 
函数 ， 这 里 的 “q” 即 表示 分 位 数 (quantile)。 前 面 曾 经 提 到 过 分 位 数 函数 就 是 相应 累积 分 布 函 
数 的 反 函 数 ， 本 章 前 面 所 给 出 的 示例 代码 也 说 明了 这 一 点 。 本 节 便 以 此 为 基础 展开 讨论 。 
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对 于 一 个 连续 型 随机 变量 而 言 ， 它 取 任 何 固定 值 的 概率 都 等 于 0， 也 就 是 说 考察 随机 变量 
在 某 一 点 上 的 概率 取 值 是 没有 意义 的 。 因 此 ， 在 考察 连续 型 随机 变量 的 分 布 时 ， 我 们 看 的 是 它 
在 某 个 区 间 上 的 概率 取 值 。 这 时 就 需要 用 到 累积 分 布 函 数 。 以 正 态 分 布 为 例 ， 做 其 累积 分 布 函 
数 。 
> x <- 3eq(-3, 4, by = 0.1) 
> car <= phnorm(x, 0, 1) 
> plot(adf % xr type ” "oo") . 

上 述 代 码 的 执行 结果 如 图 5-23 中 的 右 图 所 示 。 对 于 连续 型 随机 变量 而 言 ， 累积 分 布 函数 是 
概率 密度 函数 的 积分 。 从 几何 意义 上 来 解释 ， 例 如 图 5-23 中 右 图 横 坐 标 等 于 1.0 的 点 ， 它 对 应 
的 函数 值 约 为 0.8413〈 取 值 可 以 在 R 中 通过 函数 来 获取 或 者 查 表 )。 如 果 在 图 5-23 的 左 图 里 过 
横 坐 标 等 于 1.0 的 点 做 一 条 垂直 于 横 轴 的 直线 ,，( 根 据 积分 的 几何 意义 ) 则 该 直线 与 其 左 侧 的 正 
态 分 布 概率 密度 函数 曲线 所 围 成 之 面积 就 约 等 于 0.8413。 

了 


上 
图 5-23 ”标准 正 态 分 布 的 CDF 


我 们 用 数学 公式 来 表达 ， 则 标准 正 态 分 布 的 概率 密度 函数 为 : 
















































2 -| 二 一 


六 -3 





1 
p(x) rg 可 和 <x<+%) 
所 以 有 : 
y= (6) = PX = [去 元 e 守 gx 


这 也 符合 前 面 所 给 出 的 结论 ， 即 累积 分 布 函 数 F(xi) 是 x 的 非 降 函 数 。 


wwaibbt.com DOODOODOODOO 
92 


第 5 章 实用 统计 图 形 


继续 前 面 的 例子 ， 易 得 : 


1.0 
P{X<1.0} = | ee ~ 0.8413 


上 面 这 个 公式 可 以 解释 为 : 在 标准 正 态 分 布 里 , 随机 变量 取 值 小 于 或 等 于 1.0 的 概率 是 84.13%。 
这 其 实 已 经 隐约 看 到 分 位 数 的 影子 了 ， 而 分 位 数 的 特性 在 累积 分 布 函数 里 表现 得 更 为 突出 。 


分 位 数 函 数 是 相应 累积 分 布 函数 的 反 函 数 ， 则 有 xi = F-1(y)。 下 面 这 段 示 例 代码 直接 画 出 
了 累积 分 布 函 数 的 反 函 数 〈 将 自 变 量 与 因 变 量 的 位 置 对 调 ) 作为 参照 ， 结 果 如 图 5-24 所 示 。 根 
据 反 函 数 的 基本 性 质 ， 它 的 浮 数 图 形 与 原 函 数 图 形 关 于 x = y 对 称 ， 关 于 这 一 点 ， 5-24 中 所 
示 的 结果 是 显然 的 。 
> plot (cdf ~ x, ylim = ce(-3,3), Se 二 放下 必 lity = 3 xlab="", ylab="") 
> par (new=TRUE) 
> plot(x ~ edf, xlim = ol-3,3), tybpe = a 

然后 请 读者 执行 下 列 代码 ， 并 观察 程序 的 输出 结果 。 


> plot (gnorm(cdf) ~ cdf, type = "1") 
> plot(x “Ucdf, types= "Im) 





5-24 ”累积 分 布 函 数 及 其 反 函 数 


上 述 代码 首先 利用 R 中 提供 的 正 态 分 布 相应 的 分 位 数 函 数 qnorm 来 绘制 图 形 ， 如 图 5-25 
中 的 左 图 所 示 。 再 与 直接 绘制 的 CDF 反 函 数 图 形 相对 比 ， 如 图 5-25 中 的 右 图 所 示 。 分 位 数 函 
数 qnorm 的 第 一 个 参数 是 由 概率 构成 的 向 量 。 由 于 分 位 数 函数 就 是 相应 累积 分 布 函 数 的 反 函 数 ， 
因此 图 5-25 中 的 左 图 和 右 图 所 示 之 结果 是 一 样 的 。 
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图 5-25 分 位 数 函 数 是 CDF 的 反 函 数 


累积 分 布 函数 就 是 值 到 其 在 分 布 中 百 分 等 级 的 映射 。 如 果 累 积分 布 函数 CDF 是 x 的 函数 ， 其 
中 x 是 分 布 中 的 某 个 值 ， 计 算 给 定 x 的 CDF(x)， 就 是 计算 样本 中 小 于 或 等 于 x 的 值 的 比例 。 而 分 
位 数 函 数 则 是 累积 分 布 函数 的 反 函数 ， 它 的 自 变 量 是 一 个 百 分 等 级 ， 而 它 输出 的 值 是 该 百 分 等 
级 在 分 布 中 对 应 的 值 。 这 也 就 是 分 位 数 函数 的 意义 。 

在 上 述 讨论 的 基础 上 ， 下 面 我 们 来 研究 另外 一 个 重要 的 话题 ， 亦 即 关于 QQ 
(Quantile-Quantile Plot) 的 一 些 知识 。QQ 图 用 于 直观 地 验证 一 组 数据 是 否 来 自 某 个 分 布 ( 最 常 
见 的 情况 是 检验 数据 是 否 来 自 于 正 态 分 布 )， 或 者 验证 某 两 组 数据 是 否 来 自 同 一 分 布 。 

若是 检验 一 组 数据 是 否 来 自 某 个 分 布 ， 累 积分 布 函 数 为 F(x)， 通 常 图 的 纵 坐 标 为 排 好 序 的 
实际 数据 (次 序 统计 量 ，x()<xcz)<… <Xx(n) )， 可 以 称 之 为 采样 分 位 点 。 横 坐标 为 这 些 数据 的 
理论 分 位 点 。 理 论 分 位 点 的 计算 要 用 到 前 面 介 绍 的 分 位 数 函数 。 下 面 就 以 最 常用 的 正 态 分 布 的 
QQ 图 来 说 明理 论 分 位 点 该 如 何 得 到 。 例 如 ， 检 验 表 5-1 这 样 一 组 数据 是 否 服从 正 态 分 布 。 




















表 5- 1 _ 待 检验 数据 










95.30 | 100.67 108.70 
110.28 | 117.14 | 125.39 | 127.91 | 145.24 
首先 算出 各 个 排 好 序 的 数据 对 应 的 百分比 plD， 也 就 是 第 ;个 数据 xd 为 pm 分 位 数 。 这 里 pd 有 很 
多 种 算法 , 例如 有 的 定义 为 po = i/(n + 1) 等 。 我 们 这 里 取 pc) = (i 一 0.5)/n, 于 是 得 到 如 表 5-2 
所 示 之 结果 。 
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表 5-2 次 序 统计 量 之 百分比 





Ptro1) | Plo2) | P03) | Peo4) | Peos) | Po6) | Peo7) Pog) Pros) 









则 xi 对 应 的 理论 分 位 点 为 FE-i[pa] = F-1[(i 一 0.5)/m]， 亦 即 纵 坐 标的 值 。 为 什么 不 把 pa 定义 
为 i/n 呢 ?车 这 样 定义 ， 则 最 大 的 那个 数 对 应 的 pw) = 1， 这 样 很 多 分 布 函数 的 F-1(1) 对 应 一 个 
无 穷 大 ， 这 样 无 法 在 坐标 上 表示 出 来 ， 所 以 稍 加 修改 。 在 R 中 可 由 下 列 代码 实现 ， 注 意 其 中 用 
到 了 分 位 数 函数 : 
> gq.dset <- seq(0.05,0.95,by = 0.1) 
> q.dset 

[LI OOSTO LS I0:2or O30 45 O00 O06S 0 NS 10905 
> q.norm <- qnorm (qdset) 
> round(q.norm, 2) 

[ET = 64 二 -0a57 =S0.39 =0.13 013 O039 0067 Cl 0A G4 

在 定义 好 QQ 图 的 横 纵 坐标 之 后 ， 就 可 以 在 图 上 做 出 散 点 图 来 ， 示 例 代 码 如 下 。 程 序 执行 

结果 如 图 5-26 所 示 ， 其 中 左 图 是 基于 上 述 计算 步 又 所 得 之 坐标 自行 绘制 的 QQ 图 ， 右 图 则 是 利 
用 RR 中 的 函数 自动 绘制 的 QQ 图 ， 以 用 作对 比 ， 显 然 二 者 是 一 致 的 。 
> Par(mfrow = c{(1,2)) 
> plot(dset ~ q,norm，main = Normal Q-Q Plot (Manually)n col = "ved") 
> par (new = TRUE) 
> qqline (dset) | pre ee a ec ee 
> qqnorm(dset, main = "Normal Q-Q Plot (By R)", col = "blue") ee AR 
> 























qqline (dset) 
Normal Q-Q Plot (Manuaily) Normal Q-Q Piot (By R) 

] E 

! 
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| pa 
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2 jp 
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图 5-26 绘制 QQ 图 
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绘制 完 散 点 图 之 后 ， 可 以 再 在 图 上 添加 一 条 直线 ， 这 条 直线 就 是 用 于 做 参考 的 ， 通 过 看 散 
点 是 否 落 在 这 条 线 的 附近 即 可 得 知 数据 集 与 指定 分 布 的 符合 程度 。 直 线 由 下 四 分 位 点 和 上 四 分 
位 点 这 两 点 确定 。 下 四 分 位 点 的 坐标 中 横 坐标 为 实际 数据 的 下 四 分 位 点 ， 纵 坐标 为 理论 分 布 的 
下 四 分 位 点 ， 上 四 分 位 点 与 此 类 似 ， 这 两 点 就 刚好 确定 了 QQ 图 中 的 直线 。 

可 以 使 用 R 中 提供 的 qqline() 这 个 函数 来 实现 上 述 功 能 。 该 函数 的 作用 是 向 图 中 加 入 一 条 用 
于 参考 的 直线 ， 它 给 出 了 一 个 理论 上 的 QQ 图 ， 也 就 是 所 有 点 都 完美 地 排列 在 一 条 直线 上 的 结 
果 “〈 默 认 情况 下 对 应 于 正 态 分 布 QQ 图 的 理论 线 )， 该 函数 的 声明 如 下 : 






其 中 ，y 是 包含 n 个 单 变量 样本 数据 的 向 量 ， 也 就 是 函数 要 检验 的 数据 集 ， 这 个 参数 在 qqnorm() 
函数 里 也 会 用 到 ， 它 们 的 意义 是 相同 的 。 参 数 probs 是 一 个 长 度 为 2 的 向 量 ， 其 中 的 两 个 元 素 
分 别 表示 两 个 分 位 ， 默 认 情 况 下 对 应 了 下 四 分 位 和 上 四 分 位 。 参 数 distribution 给 出 了 参考 分 布 
的 类 型 ， 默 认 情 况 下 是 正 态 分 布 。 最 后 一 个 可 选 参数 是 qtype， 其 取 值 为 一 个 介 于 1 一 9 之 间 的 
整数 默认 情况 下 等 于 7)， 该 参数 指示 了 具体 执行 分 位 数 计算 的 9 种 不 同 算法 (其 中 1 一 3 是 
离散 采样 分 位 法 ， 其 余 是 连续 采样 分 位 法 )。 每 种 算法 的 具体 细节 ， 限 于 篇 幅 这 里 不 再 详 述 ， 有 
兴趣 的 读者 可 以 参阅 R 的 帮助 文档 以 了 解 更 多 细节 。 


函数 qqnorm() 的 作用 是 为 待 检 验 数 据 生 成 一 个 正 态 分 布 的 QQ 图 ,该 函数 的 声明 形式 如 下 : 









其 中 , 与 qqlineO) 函 数 中 的 情况 相同 ，y 是 包含 mn 个 单 变量 样本 数据 的 向 量 ， 也 就 是 函数 要 检验 的 
数据 集 。 参 数 main 给 出 的 是 图 的 名 称 ，xlab 和 ylab 分 别 给 出 横 轴 和 纵 轴 的 标签 。 参 数 plot.it 
是 一 个 布尔 值 , 默认 值 为 TRUE, 它 表 示 系 统 将 显示 QQ 图 的 绘制 结果 。 如 果 它 被 置 为 FALSE， 
则 系统 不 会 显示 绘制 结果 。 同 样 ，datax 也 是 一 个 布尔 值 ， 默 认 情 况 下 它 等 于 FALSE， 如 果 把 
它 置 为 TRUE， 那 么 QQ 图 中 的 横 纵 坐 标 将 对 调 。ylim 是 图 形 参数 ， 控 制 纵 坐 标 〈 如 果 datax = 
FALSE 的 话 ) 的 取 值 范围 ， 后 面 我 们 在 介绍 R 语言 绘图 的 时 候 还 会 再 介绍 这 个 参数 。 


作为 另外 一 个 演示 qqnorm() 和 qqline() 使 用 的 例子 , 下 面 这 段 示例 程序 验证 了 中 央 极 限定 理 。 








程序 执行 结果 如 图 5-27 所 示 。 
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图 5-27 验证 中 央 极 限定 理 


若是 检验 两 组 数据 是 否 来 自 同一 个 分 布 函数 F(x)， 则 直接 将 两 组 数据 各 自 的 理论 分 位 点 当 
作 横 纵 坐 标 ， 然 后 看 是 否 在 一 条 直线 的 附近 。 当 被 检验 的 两 组 数据 中 元 素 的 个 数 不 一 致 时 ， 需 
要 用 插值 法 ， 将 元 素 个 数 少 的 那 组 数据 通过 插值 的 方法 补 齐 。 


在 R 中 ， 可 以 使 用 qqplot(O) 这 个 函数 来 完成 上 述 功能 。 它 的 作用 就 是 产生 两 组 数据 集 的 QQ 
图 ， 其 声明 如 下 : 
qqplot(x, y, plot.it = TRUE, xlab = deparse(substitute(x)), 

ylab = deparse (substitutel(y)), ...) 
其 中 参数 x 和 y 分 别 表示 需要 进行 检验 的 两 组 数据 ， 其 他 参数 的 意思 前 面 已 经 讨论 过 ， 这 里 不 再 
重复 。 

下 面 这 段 示 例 代 码 演示 了 该 函数 的 使 用 。 
> exp"bop srexp (iO, rate 二 Ll) 
>'par(mfrow'= Cc(l,2)) 
> qqplot (exp.pop, exp.pop) 
> gqqplot(exp.pop, rexp(100, rate = 1)) 

上 述 程 序 的 执行 结果 如 图 5-28 所 示 , 一 组 数据 现在 和 其 自身 是 来 自 同 一 分 布 的 , 所 以 图 5-28 
左 图 中 的 所 有 点 都 在 一 条 直线 上 。 注 意 到 函数 rexp() 的 作用 是 生成 满足 指数 分 布 的 随机 数 ， 所 
以 每 次 执行 它 的 结果 都 不 可 能 是 完全 一 样 的 。 正 如 图 5-28 右 图 中 所 表现 的 那样 ， 两 组 数据 是 来 
自 同一 分 布 的 ， 因 为 图 中 的 数据 点 近似 在 一 条 直线 上 ， 但 这 条 直线 显然 不 可 能 像 左 图 中 的 那样 
完美 。 
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rexp{100, rate = 1) 














exp.pop 


图 5-28 检验 两 组 数据 是 否 来 自 同 一 分 布 
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CN 





数据 分 析 的 第 一 步 应 该 是 获取 数据 。 正 所 谓 “ 巧 妇 难 为 无 米 之 炊 ”， 没 有 数据 而 空谈 分 析 显 
然 是 毫 无 意义 的 。 我 们 要 获取 的 原始 数据 ， 可 能 来 自 不 同 的 渠道 ， 或 者 具有 多 种 多 样 的 形式 。 
正确 地 读 取 它 们 并 进行 一 定 的 初步 整理 ， 无 疑 会 为 后 续 工 作 打下 一 个 良好 的 基础 。 此 外 ， 对 数 
据 整 理 的 结果 进行 保存 也 是 一 项 非常 重要 的 工作 。 本 章 将 围绕 这 些 话题 展开 讨论 ， 并 帮助 读者 
进一步 巩固 使 用 R 的 能 力 。 


6.1 数据 的 载 入 


任何 一 门 高 级 计算 机 语言 都 必然 提供 了 IO 相关 的 功能 ， 例 如 C 语言 库 函 数 中 的 printf 和 
scanf。 对 于 为 数据 分 析 而 生 的 R 来 说 ,输入 与 输出 就 具有 了 更 加 特殊 的 意义 ， 所 以 当 提 及 R 中 
的 数据 IO 时 ， 更 多 是 针对 文件 而 言 的 。 


6.1.1 基本 的 数据 导入 方法 


文件 就 是 存储 在 外 部 存储 器 上 的 一 组 相关 元 素 或 数据 的 有 序 集合 。 由 这 个 定义 可 知 ， 文 件 
通常 都 被 存在 外 部 存储 器 上 。 事 实 上 ， 文 件 只 有 需要 被 使 用 的 时 候 才 会 被 调 入 内 存 。 此 外 ， 从 
更 加 广义 的 角度 来 说 ， 文 件 还 可 分 为 普通 文件 和 设备 文件 两 大 类 ， 如 图 6-1 所 示 。 


所 谓 普 通 文件 就 是 指 驻 留 在 磁盘 或 其 他 外 部 介质 上 的 一 个 有 序数 据 集 ;而 设备 文件 主要 指 
与 主机 相 联 的 各 种 外 部 设备 ， 如 显示 器 、 打 印 机 、 键 盘 、 扫 描 仪 等 。 操 作 系 统 把 外 部 设备 也 看 
作 是 一 个 文件 来 管理 ， 它 们 与 普通 的 数据 文件 不 同 ， 它 们 只 是 一 种 逻辑 上 的 文件 。 操 作 系 统 为 
了 方便 处 理 ， 而 对 设备 文件 的 输入 、 输 出 等 同 看 作 是 对 磁盘 文件 的 读 和 写 。 通 常情 况 下 ， 显 示 
器 被 定义 为 标准 输出 文件 ， 键 盘 则 被 定义 为 标准 输入 文件 。 因 此 ， 在 屏幕 上 显示 信息 就 是 向 标 
准 输 出 文件 输出 信息 ， 从 键盘 上 键入 数据 就 意味 着 从 标准 输入 文件 上 接收 数据 。 
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图 6-1 普通 文件 和 设备 文件 


文件 概念 的 引入 使 得 所 有 的 系统 资源 (普通 文件 或 目录 、 人 磁盘、 键盘 、 显 示 器 、 打 印 机 等 ) 
有 了 统一 的 标识 , 操作 系统 对 这 些 资 源 的 访问 和 处 理 都 是 通过 统一 的 字 节 序列 的 方式 来 实现 的 。 
标准 输入 /输出 主要 是 面向 设备 文件 的 ， 但 是 数据 分 析 所 需要 的 原始 数据 量 可 能 很 大 ， 依 靠 来 自 
键盘 的 输入 显然 是 很 不 现实 的 。 所 以 ,本 章 研究 的 文件 主要 是 指 除 了 设备 文件 以 外 的 普通 文件 。 
如 无 特殊 说 明 ， 本 章 后 面 所 出 现 的 文件 即 专 指 普 通 文件 。 我 们 在 R 中 所 处 理 的 数据 更 多 的 正 是 
来 自 其 他 通用 格式 所 保存 的 文件 。 这 里 的 “通用 格式 ”可 能 是 由 其 他 数据 处 理 软件 (例如 Excel) 
保存 的 文件 格式 ， 也 可 能 来 自 数据 库 管理 系统 ， 甚 至 可 能 来 自 网 页 。 幸 好 R 已 经 为 读 取 各 式 各 
样 的 文件 做 足 了 准备 。 


实际 上 ，R 本 身 已 经 提供 了 超过 50 个 数据 集 ， 而 在 众多 功能 包 中 ， 出 于 演示 用 例 的 目的 ， 
也 附带 提供 了 更 多 的 数据 包 。 基 本 安装 完成 后 ， 默 认 的 数据 集 被 存放 于 datasets 程序 包 中 。 本 
书后 续 的 许多 例子 都 用 到 了 该 包 的 数据 。 


通过 函数 data() 可 以 查看 系统 提供 的 全 部 数据 集 ， 这 包括 datasets 以 及 通过 library() 加 载 之 
程序 包 中 的 数据 。 该 函数 亦 可 被 用 于 载 入 指定 的 数据 集 。 例 如 当 我 们 想 查 看 geyser 数据 集 的 内 
容 时 ， 系 统 表 示 无 法 识别 它 ， 而 当 用 data() 函 数 做 如 下 处 理 后 ， 我 们 就 可 以 正常 使 用 geyser 数 
据 集 了 。 


> geyser 
Brrors Obieet geyser' not found 
> datal(lgeyser, package = MASSw) 
> geyser 
waiting duration 
下 80 4.0166667 
2 71 2.1500000 
3 57 4.0000000 


R 中 最 常用 的 读 取 文 件 的 指令 是 read.table()， 它 是 读 取 和 矩形 格子 型 数据 最 为 简单 的 方式 。 
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使 用 该 函数 读 入 数据 后 ， 我 们 将 得 到 一 个 列表 。 该 函数 的 调用 格式 如 下 : 


read.table (file, header = FALSE, sep = "", quote = "\"'", 
dec ="".n, numerals = o("allow.lose", "warn.loss", "no.1oss"), 
row.names, col.names, na.strings = "NA", skip = 0， 
check.names = TRUE, strip.white = FALSE, blank.lines.skip = TRUE, 
) 


函数 read.table() 中 包含 很 多 参数 ， 上 面 我 们 也 仅 列 出 了 比较 常用 的 几 个 。 表 6-1 对 其 中 部 分 参 
数 的 意义 进行 了 说 明 。 现 在 来 看 一 段 示 例 代 码 。 
> data = read.table("c:/car.txt", header=TRUE, quote="\"") 
> datall:2,1] 
Make ' lpi00km mass.kg List.price 


1 Alpha Romeo B13 L242 38500 
2 Audi A3 8.8 ri60 38700 


表 6-1 主要 参数 说 明 













file 要 读 取 的 数据 文件 名 称 




















header 逻辑 值 ，TRUE 表示 文件 的 第 一 行 包含 变量 名 ， 默 认为 FALSE 
_sep 文件 中 的 字段 分 隔 符 ， 默 认为 sep=" "， 即 分 隔 符 为 空格 
dec 设置 用 来 表示 小 数 点 的 字符 





向 量 的 行 名 ， 默 认为 1，2，3……: 
向 量 的 列 名 ， 默 认为 由， 只， 办. 
赋 给 缺失 数据 的 值 ， 默 认 值 为 NA 
开始 读 取 数 据 前 跳 过 的 数据 文件 的 行 数 
是 否 消除 空白 符 


是 否 跳 过 空白 行 











col.names 











na.strings 

















_strip.white 
blank.lines.ski 

与 read.table() 用 法 类 似 的 还 有 read.csv() 和 read.delim()。 函数 read.csv0 用 于 读 取 逗号 分 隔 文 
件 ， 即 CSV (Comma-Separated Values) 文件 ， 所 以 该 函数 中 sep 的 默认 值 为 “,”。read.delim() 
针对 使 用 其 他 分 隔 符 的 数据 (并 且 不 使 用 行 号 )，sep 的 默认 值 为 制 表 符 “\t”。 这 两 个 指令 的 其 
他 参数 设置 与 read.table() 基 本 无 异 ， 但 应 注意 其 中 header 的 默认 值 是 TRUE。 本 书后 续 的 例子 
更 多 使 用 read.csv(0) 函 数 。 


读 入 数据 后 ， 可 以 通过 一 些 简 单 的 函数 来 查看 数据 的 基本 信息 。 此 时 ， 比 较 常 用 的 函数 有 
三 个 。 首 先是 mode() 函 数 ， 它 用 来 显示 对 象 的 类 型 。 例 如 : 


> mode(data) 
Ell Mrs 


然后 是 用 于 显示 对 象 中 标签 的 函数 names()， 在 刚刚 读 取 的 数据 中 ， 就 是 列表 中 包含 的 变量 名 。 
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me mo EE 


例如 : 
> names (data) 
[1 Maken nolo0kn nmassukognw mat peice 


第 三 个 函数 是 dim()， 它 用 于 显示 对 象 的 维 数 ， 例 如 刚刚 读 取 的 数据 中 共有 13 条 记录 和 4 个 变 
量 (也 就 是 13 行 、4 列 )。 


>, dim(data) 
uh le Rae Daal! 


要 显示 列表 中 的 变量 ， 常 常 需要 用 到 符号 “$”， 但 在 数据 文件 中 变量 很 多 时 ， 多 次 使 用 该 
符号 会 比较 麻烦 。 这 时 使 用 attach() 函 数 ， 便 可 以 直接 通过 变量 名 来 获取 变量 中 的 信息 。 函 数 
detach() 用 于 执行 相反 的 操作 。 


> data$lpl100km 
0 
> lp100km 
Error: object 'lpl00km' not found 
> attach (data) 
> lp100km 
[9 和 9 wa 6.9 BD, QB hOB 
> detach(data) 
> lpl100km 
Error: object ‘lpl00km’' not found 


有 些 粗 数据 虽然 具有 非常 规整 的 格式 ， 但 缺少 分 隔 符 ， 这 就 需要 在 读 取 这 些 文件 时 手动 划 
分 每 个 字段 的 长 度 ， 这 时 可 以 使 用 函数 read.fwf()， 它 逐 行 读 入 数据 ， 通 过 调整 参数 widths 可 以 
实现 对 各 个 字段 的 宽度 进行 划分 。 


假设 有 一 个 名 为 data.txt 的 文本 文件 ， 其 内 容 如 下 所 示 : 


BeijingN116.42E39.92 
GuiyangN106.72826.56 
KunmingN102.73E25.05 
LanzhouN103.73E36.03 
NanjingN118.78E32.05 
QingdaoN120.33E36.07 


通过 如 下 命令 可 以 将 文本 文件 读 入 ，widths 分 别 指定 三 个 变量 的 宽度 。 注 意 文本 文件 每 行 行 末 
都 有 一 个 换行 符 ， 尽 管 它 不 可 见 ， 但 也 要 占 一 个 字符 的 位 置 。 此 外 ，col.names 指定 了 三 个 变量 


的 名 称 。 

> data.fwf = read.fwf ("c:/cities.txt", widths=c{(7,7,7); 
十 人 
> Gata. WE : a , 


city Utd dh 
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Bedjydndglll6 ,42 (pao 9 
Guiyang Ni06.12 E26,.56 .1 
Kunming Ni102 .73 25 .05 
Tangbowu No 13 ， m36.03 
Nanjdng Ni18.78 "R32.05 
eingdao N120.33 ER36 .0 


6.1.2 ”处 理 其 他 软件 的 格式 

数据 分 析 时 ， 将 R 与 其 他 数据 分 析 软 件 配 合 使 用 也 是 很 正常 的 情况 ， 特 别 是 由 于 不 同 软 件 
各 有 所 专 ， 若 能 取长补短 ， 则 必然 事半功倍 。 下 面 我 们 就 以 Excel 和 SPSS 两 种 软件 的 文件 格式 
为 例 ， 介 绍 在 R 中 读 入 其 他 软件 格式 文件 的 方法 。 

Excel 电子 表格 是 我 们 平时 最 常用 的 一 种 表格 数据 ， 一 些 简 单 的 数据 分 析 工 作 完 全 可 以 用 
Excel 来 处 理 ， 所 以 在 R 中 读 取 .xls 和 .xlsx 格式 的 文件 也 时 有 发 生 。 在 R 中 读 入 Excel 表格 数据 
的 方法 有 很 多 种 , 其 中 一 种 比较 直接 的 方法 就 是 选中 Excel 中 的 数据 后 , 从 剪贴 板 中 读 取 数 据 。 

首先 , 打开 要 访问 的 Excel 表格 文件 ， 然 后 选中 需要 的 数据 后 复制 (在 右键 菜单 中 选择 “ 复 
制 ” 或 者 使 用 快捷 键 “CtrltC”)， 如 图 6-2 所 示 ， 这 样 所 需 之 数据 就 被 存 入 剪贴 板 了 。 





CN Un DP 













和 sd re pe — 
2 Ee oneo | 


br 


Ta Futura 
反 _lHolden Barina 
_6 Hyundai Getz 





6-2 复制 Excel 中 的 数据 
然后 在 R 中 输入 下 列 代码 ， 促 可 威 功 地 将 淹 信 要 中 县 梁 据 避 入 R。 


> data.excel = read. | 
> data exceluliiel 0 
Make lpl00km mass.kg i pr 





1 Alpha Romeo ss 1242 38500 
2 Audi AS ee 1160 38700 
但 一 个 问题 是 当 数 据 量 较 大 时 ， 这 种 操作 似乎 还 是 有 点 麻烦 ， 这 时 利用 RODBC 软件 包 所 


























提供 的 方法 便 可 实现 对 Excel 数据 的 直接 访问 。 假 设 我 们 已 经 正确 安装 并 载 入 了 该 程序 包 。 便 
可 以 使 用 下 面 这 段 示例 代码 来 建立 与 Excel 文件 连接 的 通道 。 事 实 上 ，RODBC 提供 了 R 和 各 
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类 数据 库 的 一 个 接口 〈 例 如 Access 和 SQL Server 等 )， 显 然 它 也 把 Excel 看 成 一 种 数据 库 。 该 
包 提 供 的 获取 Excel 连接 的 函数 是 odbcConnectExcel() 和 odbcConnectExcel2007()， 这 两 个 函数 
分 别 用 于 读 取 扩展 名 为 .xls 和 ,xlsx 的 文件 。 

> channel = odbcConnectExcel2007 ("0;/car.xlsx") 


> sqlTables (channel) 
TABLE ‘CAT TABLE SCHEM ‘TABDE NAME ‘TABLE TYPE REMARKS 














1 ci\\car xLsx <NA> Sheetl1l$ SYSTEM TABLE <NA> 
2.0:\\carixlsx <NA> Sheet2$ SYSTEM TABLE <NA> 
3 TANAEaI 人 LSX <NA> Sheet3$ SYSTEM TABLE <NA> 





获取 Sheetl 中 的 数据 ， 下 面 示 例 代码 的 头 两 行 提供 两 种 等 价 的 方法 。 其 中 sqlFetch() 直 接 读 
取 Excel 连接 中 的 一 个 表 到 R 数据 框 或 列表 中 ，sqlQuery0 在 Excel 连接 上 执行 SQL 查询 语句 。 


data excel2 sqlpeton(channel, "Sheetl”) 


kp 二 
> data excel2 = sqiQuery(channel, “select * fromlSheet1$]") 
> close(channel) 
> data excel2?[1:2,1 
Make " Ipi00km mass.kg List.price 
1 Alpha Romeo 9.5 1242 38500 
2 Audi A3 SB.8 1160 38700 
需要 在 R 中 读 取 由 其 他 统计 软件 产生 的 数据 文件 时 , 使 用 foreign 程序 包 是 非常 方便 的 。 利 
用 该 程序 包 可 以 访问 的 统计 软件 数据 包括 SPSS、SAS、Stata 和 Minitab 等 。 下 面 我 们 将 以 SPSS 
为 例 来 演示 具体 的 使 用 方法 。 
> data spss ~ read,spss("o:/car.sav", to.data.frame = T) 
> data ssalt ar 
Make 15100km | mass.kg Listprice 
1 Alpha Romeo 9.5 1242 38500 
2 Muu AD 8.8 1160 38700 
注意 此 处 省 略 了 一 些 警 告 信息 ， 这 是 由 于 SPSS 文件 中 包含 许多 像 变 量 类 型 和 变量 长 度 等 
这 样 的 附加 信息 ,而 R 在 读 入 时 不 能 全 部 识别 ,所 以 才 会 输出 警告 。 但 这 并 不 影响 我 们 对 于 SPSS 
中 数据 的 读 入 。 


此 外 ， 正 如 前 面 提 到 的 ， 利 用 foreign 程序 包 中 的 文件 还 可 以 对 其 他 类 型 的 统计 软件 文件 进 
行 访问 。 限 于 篇 幅 此 处 不 再 逐一 介绍 ， 建 议 有 兴趣 的 读者 参考 相关 帮助 文档 以 了 解 更 多 细节 。 
6.1.3 ” 读 取 来 自 网 页 的 数据 


在 实际 应 用 中 ， 从 网 站 上 直接 获取 数据 也 是 十 分 常见 的 ， 例 如 国家 统计 局 官方 网 站 发 布 的 
权威 统计 数据 、 中 国人 民 银 行 网 站 发 布 的 经 济 数据 或 其 他 专业 财经 网 站 提供 的 股市 、 期 货 、 债 
券 数据 都 是 在 进行 宏观 数据 分 析 工 作 时 常用 的 数据 源 , 要 在 RR 中 读 取 网 页 上 的 HTML 表格 数据 ， 
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需要 用 到 XML 程序 包 提 供 的 readHTMLTable() 函 数 ， 其 调用 格式 如 下 : 


readHTMLTable (doc, header = NA, colClasses = NULL, 
skip,rows = integer{(), trim = TRUE, elFun = xmlValue, 
as.data.frame = TRUE, which = integer()) 


其 中 doc 给 出 的 是 HTML 文件 或 网 页 地 址 。 若 hearder 是 一 个 逻辑 值 ， 则 用 于 指示 是 否 包含 列 
标签 ; 若 为 字符 向 量 ， 则 其 将 为 列 名 称 赋 值 。colClasses 是 一 个 列表 或 向 量 ， 指 定 表 中 的 各 列 数 
据 的 类 型 ,除了 常用 的 “integer”“numeric”、“logical” 和 “character”, 还 可 以 使 用 FormattedNumber 
引入 一 个 新 类 。 参数 skip.rows 指定 要 忽略 的 行 。 逻辑 值 trim 指定 是 否 要 删除 开头 和 结尾 的 空白 
单元 格 。 最 后 ， 整 数 向 量 which 表示 返回 网 页 中 的 哪 几 个 表格 。 


假设 读者 已 经 正确 安装 并 加 载 了 XML 程序 包 。 现 在 我 们 设法 从 世界 银行 的 网 站 上 获取 全 
球 各 个 经 济 体 〈 包 括 国家 和 地 区 ) 2011 一 2014 年 的 人 均 GDP 数据 (单位: 美元 )。 注 意 ， 如 果 
网 页 地 址 较 长 ， 而 在 输入 时 需要 换行 ， 那 么 最 终 的 字符 串 中 会 被 引入 换行 符 。 为 此 我 们 使 用 函 
数 gsub() 将 字符 串 中 的 换行 符 删 去 。 
baseURL = "http://data.worldbank.org/indicator/NY .GDP.PCAP.CD/ 
countries/1W?display=default" 
baseURL = gsub("\\n",""rbaseURL) 
table = readHTMLTable (baseURL, header = TRUE, which = 1) 
table = table[, 1:5] 
names (table) = c("countryy 2011", 202 "2013%, +»2014") 
事实 上 ， 在 获取 数据 之 后 ， 我 们 也 对 其 进行 了 一 定 的 预 处 理 。 关 于 数据 预 处 理 的 内 容 ， 后 面 还 
会 有 专门 的 介绍 。 需 要 说 明 的 是 ， 使 用 XML 程序 包 时 ， 由 于 该 包 编 码 方式 的 问题 ， 如 果 表 格 
中 的 变量 名 出 现 中 文 ， 则 读 入 后 就 有 可 能 会 出 现 乱码 。 此 时 ， 可 以 使 用 names() 函 数 来 对 表格 中 
的 变量 名 重新 赋值 。 我 们 所 访问 的 世界 银行 的 英文 网 站 ， 并 不 会 出 现 乱 码 的 问题 。 使 用 names() 
函数 主要 是 为 了 对 列 名 重新 进行 整理 以 适应 后 续 的 处 理 任 务 。 

我 们 是 否 已 经 成 功 地 获取 了 想 要 的 数据 了 呢 ? 下 面 这 段 代 码 从 已 经 获取 的 数据 中 筛选 出 了 
中 国 、 日 本 、 德 国 和 澳大利亚 四 国 2011 一 2014 各 年 的 人 均 GDP 数据 。 可 见 ， 我 们 已 经 正确 地 
获取 到 了 相关 数据 。 





MW MEOW a Fy 


> tabliefet40r95,71,1)r3} 


country S01 2012 ， DO 2014 
40 China SET4:2 6,264.6 6r 091.:9 I, 
3 Japan 46,203.7 467679.3 3 533 5 36,194.4 
71 Germany 45,867.8 437931:7 467255.0 47,627.4 
11 Australia G27 .13356 EL 党 67,473.0 61,887.0 


浏览 完整 的 数据 列表 时 ， 不 难 发 现 表 格 中 存在 一 些 空 数据 ， 这 主要 是 因为 世界 银行 未 能 成 
功 收集 到 相关 国家 《或 地 区 ) 的 数据 。 这 也 是 实际 的 数据 分 析 任 务 中 十 分 常见 的 问题 ， 后 续 我 
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rng 


们 在 数据 预 处 理 部 分 还 会 对 此 做 更 为 详细 的 讨论 。 


6.1.4 从 数据 库 中 读 取 数据 

数据 库 管 理 系统 是 进行 数据 管理 的 重要 手段 ， 从 数据 库 中 读 取 数 据 可 能 更 具 实 际 意义 。 在 
R 中 实现 对 数据 库 的 访问 可 行 的 方法 有 很 多 种 ， 例 如 前 面 兽 经 提 及 的 RODBC 软件 包 。 众 所 周 
知 ，ODBC 是 微软 公司 提出 的 数据 库 访问 接口 标准 ， 通 过 ODBC 连接 ，RODBC 软件 包 提供 了 
从 数据 库 中 访问 或 写 入 数据 等 功能 ， 更 能 方便 地 使 用 SQL 语言 。 

该 软件 包 中 最 基础 的 函数 是 odbcConnect()， 它 可 以 直接 返回 一 个 ODBC 连接 。 下 面 以 对 
Access 数据 库 的 访问 为 例 来 演示 该 软件 包 的 使 用 。 获 取 Access 连接 的 函数 分 别 为 
odbcConnectAccess() 和 odbcConnectAccess2007()， 这 与 前 面 介绍 过 的 Excel 访问 连接 是 一 致 的 。 
例如 : 
> /channel = odbcConnectAccess2007 ("ce: /ecar.acecdb") 

稍 有 差别 的 地 方 在 于 执行 上 述 代 码 之 后 ， 有 可 能 会 被 要 求 输入 相应 的 数据 库 访问 密码 ， 如 
6-3 所 示 。 





登录 名: sin 
i 








图 6-3 ”密码 登录 对 话 框 
正确 键入 密码 后 ， 便 可 成 功 地 建立 数据 库 访 问 连接 。 在 R 中 获取 数据 库 连接 后 ， 可 以 进行 
一 系列 SQL 语句 的 操作 ， Es 各 玉 出 代 到 


> Gat access = ‘sqlFete ( 
> close(channel) 









了 apba Ro 
2 Augi Zz 
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表 6-2 RODBC 中 与 SQL 相关 的 函数 









sqlFetch 读 取 ODBC 连接 中 的 一 个 表 到 R 的 数据 框 中 

sqlQuery 在 ODBC 连接 上 执行 查询 语句 并 返回 结果 

sqlTables 给 出 ODBC 连接 对 应 的 数据 库 中 的 数据 表 

sqlCopy 复制 ODBC 连接 中 的 查询 结果 到 另 一 个 ODBC 连接 中 
sqlDrop 删除 ODBC 连接 中 的 一 个 表 


sqlClear 


清空 ODBC 连接 中 的 指定 数据 表 内 容 

在 R 中 实现 数据 库 访问 的 另外 一 种 方法 是 使 用 RJDBC 程序 包 。.JDBC 是 一 种 用 于 执行 SQL 
语句 的 Java API， 它 由 一 组 用 Java 语言 编写 的 类 和 接口 组 成 ， 可 以 为 多 种 关系 数据 库 提供 统一 
访问 。JDBC 提供 了 一 种 基准 ， 据 此 可 以 构建 更 高 级 的 工具 和 接口 ， 使 数据 库 开 发 人 员 能 够 编 
写 数据 库 应 用 程序 。 


程序 包 RJDBC 提供 了 基于 JDBC 接口 的 数据 库 连 接 功 能 ， 同 时 需要 程序 包 rJava 的 支持 ， 
在 安装 RJDBC 的 同时 ，rJava 也 会 一 并 安装 。RJDBC 调用 DBI 中 的 函数 实现 数据 库 连 接 ， 这 也 
是 一 个 驱动 器 的 功能 ， 不 同 的 只 是 数据 库 接口 变 为 JDBC。 通 过 函数 JDBC0O 可 以 创建 一 个 新 的 
DBI 驱动 程序 ， 用 于 启动 JDBC 连接 。 


现在 以 SQLite 为 例 演示 在 R 中 通过 JDBC 访问 数据 库 的 基本 方法 。SQLite 是 一 款 轻 量 级 
的 关系 型 数据 库 管 理 系 统 。 它 的 设计 目标 是 面向 檬 入 式 的 ， 而 且 目 前 已 经 在 很 多 嵌入 式 产品 中 
使 用 了 它 ， 它 占用 资源 非常 低 ， 并 能 够 支持 Windows/Linux/UNIX 等 主流 操作 系统 ， 同 时 能 
跟 很 多 程序 语言 相 结 合 ， 处 理 速 度 也 很 快 。 图 6-4 是 SQLite 的 操作 界面 ， 假 设 我 们 已 经 建立 了 
一 个 名 为 car 的 数据 库 ， 其 中 还 包括 一 张 名 为 racv 的 数据 表 。 下 面 的 代码 演示 了 在 R 中 对 其 进 
行 访问 的 方法 ， 假 设 数据 库 文件 存储 在 C 盘 根 目录 下 。 
> library (RJDBC) 
> con <- dbConnect (RSQLite: :SQLite(),"C:/car.db") 
> dbListTables (con) 
Wn, Sam 
> dataiSorute <= dbGetQuery (con, "seleek xom EacVai 
> data SQLite[1:2，] 

Make lpl00km mass.kg List Price 

1 Alpha Romeo 955 1242 38500 
2 Audi A3 8.8 1160 38700 

作为 演示 之 用 ， 我 们 所 选择 的 数据 库 都 是 一 些 较 小 规模 的 数据 库 管理 系统 。 但 是 在 R 中 访 
问 像 Oracle、SQL Server 或 MySQL 等 其 他 数据 库 的 方法 也 是 大 同 小 异 的 ， 限 于 篇 幅 ， 此 处 不 
再 逐一 介绍 。 
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SOLre Expert Personsl [td 
File Database Inble View SQL Transaction Tools Help 
性 二 人 注 | 十 法 革 昌 网 国名 网 机 多 攻 生 起 克 而 全 已 吉川 瘦 傅 加 局 册 多 有 性 蕊 
Database: ear Table: maimracy Fle; Ccardb SQLite Library: finternal] version 3,8.7,4 
| | Dutabesel BsQt| Coe Desigr | ppt 
aa jl Ee wi ml ee Je Refresh hh| 
| 


| | RecNo Make Jiplo0km ‘masskg ‘Ustprice 


Iw Chick here to define 3 fiter 


| 
| 

| 上 Romeo 95 1242 。 38500 
| 


2 Audi A3 1160 38700 
3 8A Falcon Futura A 1692 37750 
& Toyota Avalon CSX 3520 34490 
5 Suzuls tians S 11430 19990 
6 Peugeot 307 N 1219 31490 
7 Mini Cooper 1050 32650 
8 Mazda Premacy 1308 27690 
9 Mazda 2 1068 17790 





图 6-4 SQLite 数据 库 系 统 


6.2 ”数据 的 保存 


数据 处 理 的 结果 或 中 间 结 果 应 该 被 妥善 保存 ， 以 方便 日 后 继续 使 用 。R 语言 中 执行 数据 保 
存 工作 的 最 基本 函数 为 cat()。 本 书 第 1 章 给 出 的 HelloWorld 程序 就 是 使 用 该 函数 来 实现 的 ， 彼 
时 我 们 是 将 其 作为 一 种 标准 输出 操作 《〈 即 向 屏幕 输出 ) 来 使 用 的 。 但 该 函数 不 仅 可 以 用 于 标准 
输出 操作 ， 它 还 可 以 向 磁盘 设备 中 输出 普通 文件 。 此 时 ， 函 数 cat() 的 基本 调用 格式 为 : 
cat (file = "", sep = " "; fill = FALSE, labels = NULL, append = FALSE) 


其 中 参数 file 指定 了 要 输出 的 文件 名 ， 若 指定 的 文件 已 经 存在 ， 则 原来 的 内 容 将 被 覆盖 。 如 果 
不 想 这 样 ， 则 需要 将 参数 append 置 为 TRUE， 此 时 cat() 函 数 将 在 指定 文件 的 末尾 追加 内 容 。 


我 们 可 以 通过 连续 调用 cat() 函 数 来 实现 对 一 个 文本 文件 的 写 入 操作 。 当 需要 多 次 这 样 操作 
时 ， 更 好 的 方法 应 该 是 首先 为 写 入 或 添加 文本 打开 一 个 文件 连接 ， 然 后 用 cat() 函 数 执行 写 入 ， 
最 后 再 关闭 该 连接 。file() 函 数 在 创建 文件 连接 的 同时 ， 也 打开 了 它 。 函 数 close() 可 用 于 显 式 地 
关闭 连接 。 来 看 下 面 这 段 示 例 代 码 。 
> car = file("d:/car. txt") 
> cat("Make lplil00km mass.kg List.price", 

+ "\"Alpha Romeo\" :9.5 1242 38500"™, 
二 NIRadi SN 338-1160. 38700", ‘File ss Car Sep = WW\n") 
> close'{car) ; 

一 种 更 常用 的 写 文 件 方 式 是 把 一 个 矩阵 或 数据 框 以 矩形 块 的 形式 整体 写 入 文件 。 毕 竞 在 R 
中 处 理 的 对 和 象 更 多 都 是 这 些 类 型 的 结构 化 数据 。write.table() 函 数 可 以 帮 我 们 完成 这 些 工作 。 
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omen 








write.table() 可 以 把 一 个 数据 框 或 列表 等 对 象 以 包含 行列 标签 的 方式 写 入 文件 , 它 的 调用 格式 为 : 


write.table(x, file = "", append = FALSE, quote = TRUE. 
8D = Sql = Vn", na = TNA ee = |, 
row.names = TRUE, col.names = TRUE) 


其 中 , x 表示 要 写 入 的 对 象 , 一 般 要 求 是 矩阵 或 数据 框 ; 逻辑 什 quote 为 TRUE 时 表示 变量 名 等 
字符 、 因 子 要 用 双 引 号 括 起 来 ;， sep 指定 了 所 用 的 分 隔 符 ; 参数 row.names 和 col.names 也 是 逻 
辑 值 ， 若 为 TRUE 则 表明 要 将 行 名 和 列 名 写 入 文件 中 。 


来 看 下 面 这 段 示例 代码 ， 它 把 从 系统 数据 集 USArrests 中 读 取 的 前 10 行 数据 所 生成 的 矩阵 
写 入 了 一 个 名 为 data.txt 的 文件 中 。 
> data = USaRArrestasfl:lu0y | ， ， 
> writeé,table(tdata, file = "0o:/data.txt", col.names < 1T, qiote = 6) 


> read.table("c:/data.txt", header = T, row.names= 1 
Murder Assault Ue Rape 




















Alabama 1 3,2 236 58 21.2 
Alaska FT0.0 263 48 34.5 
Arizona 8,.1 294 80 31.0 
Arkansas 8.8 190 50 19.5 
California 9.0 2716 91 . 40.6 
Colorado 7.9 204 78 38 
Connecticut 3 TU 7 LT 
Delaware 5.9 238 0 15 .8 
Florida 15.4 335 7 860. 3 
Georgia L174 211 60 2 .8 


同样 ， 我 们 还 可 以 使 用 write.csvO 函 数 将 数据 框 或 矩阵 保存 成 逗号 分 隔 文件 ， 方 法 与 
write.table() 类 似 。 默 认 情 况 下 ， 参 数 row.names 的 值 为 TRUE， 这样 便 会 在 写 入 文件 时 把 行 名 一 
并 写 入 。 下 面 这 段 示例 代码 所 得 之 data.csy 与 上 面 代码 中 read. tobieD 站 二 光 机 inl le 
> data2 2 vead.tabie (ro /data cats, hoador ae 1) 


> write.csvy(data?2, file = "oa /data. Ea ron. .names = TI 2 = FEF) 
> data.csv = read.csvl("c: /data. csvn， ‘header = T, ‘row. namees = 1) 








6.3 ”数据 预 处理 


在 对 数据 进行 分 析 之 前 , 为 保证 后 续 分 析 的 准确 性 , 有 必要 对 初始 数据 进行 一 定 的 预 处 理 。 
对 于 数据 框 和 列表 等 的 操作 《例如 数据 的 合并 、 拆 分 和 筛选 等 ) 都 是 数据 预 处 理 时 常用 到 的 ， 
但 笔者 打算 留待 下 一 章 专 门 介绍 R 中 的 高 级 数据 结构 。 本 节 所 讲 的 预 处 理 将 专注 于 数学 函数 、 
数据 标签 和 缺失 值 操作 等 方面 的 内 容 。 
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6.3.1 常用 数学 函数 


显然 并 非 所 有 的 初始 数据 都 可 以 被 直接 使 用 。 实 际 中 获取 的 数据 往往 都 是 量 级 各 异 、 层 次 
杂 故 '、 参 差 不 齐 的 ， 这 些 数据 若是 未 经 处 理 而 直接 使 用 ， 必 然 会 为 后 续 的 分 析 工 作 带 来 很 多 麻 
烦 ， 甚 至 会 得 出 错误 的 结论 。R 中 提供 了 许多 现成 的 数学 函数 ， 熟 练 掌握 它们 将 对 数据 处 理 带 
来 极 大 便利 。 表 6-3 中 列 出 了 最 常用 的 一 些 基本 数学 函数 , 本 书后 面 的 例子 将 频繁 地 用 到 它们 。 


表 6-3 基本 数学 函数 














函 数 功 能 
sum(x) 对 x 中 的 元 素 求 加 和 
prod(x) 对 x 中 的 元 素 求 乘积 
max(x)/min(x) 求 x 中 元 素 的 最 大 值 /最 小 值 
range(x) 返回 取 值 范围 ， 相 当 于 [min(X), max(x] 
length(x) 返回 x 中 元 素 的 个 数 
mean(x) 返回 x 中 元 素 的 均值 
median(x) 返回 x 中 元 素 的 中 位 数 

















var(x) 求 x 中 元 素 的 方差 
求 x 中 元 素 的 标准 差 
求 x* 和 y 的 协 方差 


求 x 和 y 的 相关 系数 


此 外 ， 表 6-4 列 出 了 其 他 一 些 数学 函数 ， 虽 然 它们 并 不 像 之 前 给 出 的 函数 那样 常用 ， 但 是 
在 处 理 相 应 操作 时 ， 它 们 却 能 提供 极 大 的 便利 。 


表 6-4 高 级 数学 函数 











cov(x,y) 





cor(x,y) 



































函数 功 能 
pmin(x, y, ... 返回 向 量 中 的 第 i 个 元 素 是 x 四 ,y[i],… 的 最 小 值 
pmax (x, y, ... 返回 向 量 中 的 第 ;个 元 素 是 x[ 丫 ,y[ 丫 … 的 最 大 值 
cumsum(x 求 累加 ， 返 回 向 量 中 的 第 i 个 元 素 是 x[1],…,x 轧 的 和 
cumprod(x 求 累 乘 ， 返 回 向 量 中 的 第 i 个 元 素 是 x[1],…,x 固 的 积 
round(x,n 对 x 中 的 元 素 四 舍 五 入 ， 保 留 小 数 点 后 第 n 位 
sort(x)/order(x 排序 ， 默 认 升 序 
rev(x 对 x 中 的 元 素 取 逆序 
unique(x 对 x 中 重复 的 元 素 只 取 一 个 
table(x 统计 x 中 完全 相同 的 数据 个 数 


森林 调查 是 用 于 了 解 木材 资源 存量 与 质量 的 一 种 重要 手段 。 下 面 以 美国 爱 达 荷 大 学 实验 森 
林 上 平 溪 观测 实验 站 收集 的 一 组 数据 为 例 ， 来 演示 一 下 R 中 提供 的 部 分 数学 函数 的 使 用 。 首 先 
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通过 如 下 代码 读 入 数据 ， 并 初步 了 解 这 组 数据 的 基本 结构 。 


DS utol ca vaad nsw ee una) 
> "gtr (ate) 
'data.frame': 336 obs, of 5 variables: 


$ plot ER 人 人 96 未 

9 Poa Tm I 2 十 沁 人 六 和 Tv 

SSpeciee yr : Pactor WwW/ d levels “DE EM GE WC ed 2 1 On Te oe 
$ dbh.cem + Num 39" 49 52536038 46 .25 95459 SLuB M09Ny 


$ height.m : num 20.5 33 30 20.7 22.5 18 17 29.3 29 26. 
易 见 ， 该 组 数据 共 包 括 336 条 观测 数据 和 5 个 变量 ， 所 有 被 记录 的 树木 共 可 分 为 四 个 种 类 。 


可 以 使 用 table() 函 数 来 查看 各 种 类 型 之 树木 出 现 的 频数 。 下 面 的 示例 代码 告诉 我 们 ， 该 实 
验 森 林 中 最 常见 的 树木 类 型 是 WC， 而 数量 最 少 的 树木 类 型 则 是 WL。 


> table (ufc$species) 


DE GF “WC Wb 

S718 9 2 

如 果 向 table() 函 数 传递 两 个 参数 , 那么 就 将 得 到 一 个 二 维 的 交叉 频数 表 。 在 当前 讨论 的 例子 中 ， 
每 一 个 片区 内 的 树木 都 被 编 了 号 。 如 果 这 些 号 码 代 表 片 区 内 的 不 同方 位 ， 那 么 若 现在 想 知 道 各 
种 类 型 的 树木 在 不 同方 位 上 之 分 布 情况 ， 这 时 就 可 以 使 用 下 面 这 段 代 码 来 构建 二 维 的 交叉 频数 
表 。 


> table (ufc$species,ufc$position) 


l Ze 4 
BE 
GE "S94 8 1 
WC 51 34 ‘28 8 
WE 11" 4 nD 2 


下 面 这 段 代 码 利用 之 前 介绍 的 一 些 数 学 函数 对 观察 样本 的 树干 直径 进行 了 分 析 ， 给 出 了 平 
均 数 、 中 位 数 和 标准 差 的 计算 结果 。 
> mean (ufc$dbh, cm) 
[1] 37.41369 
> median (ufc$dbh. cm) 
[1] 35 
> sd(ufc$dbh.cm) 
[1] 17:31454 
本 书 前 面 曾经 介绍 过 apply0 函 数 ， 它 是 (通过 调用 其 他 函数 ) 对 和 矩阵 中 的 行 或 列 进行 特殊 
处 理 的 函数 。 函 数 tapply() 的 功能 与 其 类 似 。 下 面 这 段 代码 演示 了 分 别 对 四 种 类 型 的 树木 计算 树 


O 


Nan wm on 
N 上 心 GO 
SO 
Om oN 
NN 
b=> 站 
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oh 


sb iso 





通过 图 形 来 对 数据 的 总 体 情况 进行 可 视 化 显示 也 是 常用 的 方法 ， 本 书 前 面 已 经 介绍 过 了 多 
种 常见 统计 图 形 的 绘制 方法 ， 此 处 不 再 重复 。 下 面 我 们 将 选用 一 个 新 的 绘图 软件 包 来 针对 本 例 
中 的 数据 绘制 一 些 更 有 针对 性 的 统计 图 形 。 这 种 图 形 也 被 称 为 条 件 散 点 图 〈 见 图 6-5 )。 


heightm 





图 6-5 不 同 种 类 树木 之 高 度 对 树干 直径 的 散 点 图 


下 列 代码 首先 加 载 了 lattice 软件 包 , 然后 利用 函数 xyplot() 来 绘制 不 同 种 类 树木 之 高 度 对 树 
干 直径 的 散 点 图 。 





另外 一 种 可 选 的 方式 是 将 四 种 类 型 的 散 点 图 绘制 在 同一 面板 内 , 并 通过 不 同 的 图 例 来 加 以 区 分 。 
来 看 下 面 这 段 示例 代码 。 






+ auto.key = list 
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上 述 代码 的 执行 结果 如 图 6-6 所 示 。 





dbhem 


图 6-6 树 高 对 树干 直径 的 散 点 图 


6.3.2 ”修改 数据 标签 


在 前 面 的 例子 中 , 我们 已 经 演示 过 用 names() 函 数 对 数据 标签 进行 修改 的 具体 方法 。 修 改 标 
签 的 初衷 可 能 是 为 了 增强 数据 的 可 读 性 ， 也 可 能 是 因为 初始 数据 本 来 就 缺少 具有 明确 意义 的 标 
签 .如 果 我 们 所 面 对 的 是 类 似 4，B，C ….… 这 样 的 标签 , 显然 它 大 大 降低 了 数据 本 身 的 可 读 性 。 
随 着 数据 分 析 工作 的 进行 ， 将 两 个 变量 弄 混淆 也 不 是 不 可 能 的 。 

下 面 的 代码 截取 了 系统 数据 集 USArrests 中 的 前 10 行 作为 例子 来 演示 一 些 更 进一步 的 数据 
标签 修改 技巧 。 
> Ue 








现在 我 们 用 names(0) 函 数 来 显示 上 述 数据 集 的 列 标签 。 
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seteieiraa 


> pames(US data) 
[11 "Murder" Assault” "Urbanpop" “Rape" 


下 面 的 代码 对 数据 集 的 列 标签 进行 了 统一 修改 。 


> names(US data) = CIMURDER" "ASSAULT", "JRBANPOP", "RAPE") 
» nanmes(Us data) 
Li] MMURDERY "ASSAULT | "URBANPOPM RAPE" 


如 果 仅 仅 是 想 修改 众多 列 标签 中 的 某 一 个 ， 那 么 可 以 采用 下 面 这 种 方式 。 
> nameslUs data) [3) ~ "UrbanPop' 
> names'(UsS data) 
[JJ WMURDER® "ASSAULT, Urbanbopr "RAPEY 

以 上 所 做 之 调整 都 是 针对 列 标签 的 .如 果 想 对 行 标签 进行 修改 , 则 需要 使 用 函数 dimnames()。 
事实 上 ， 该 函数 既 可 以 对 行 标 签 进行 调整 ， 也 可 以 对 列 标签 进行 调整 。 可 见 示 例 代码 中 的 第 一 
条 语句 获取 的 就 是 数据 集 的 列 标签 ， 此 时 它 的 作用 就 相当 于 names(0) 函数; 第 二 条 语句 获取 的 则 
是 数据 集 的 行 标签 。 


> Qinnanes (us data) [[2]] 






































[1 Manraezn 1Asesaultn "UrbanPop" "Rapen 

> dimnames (US data)1Ll]l 

[1] "Alabama" "ALaskan "Arizonan "Arkansas" CALliFornia” 
iol "Coloradon "Connecticut" "Delawaren "ELoriaa™ "Georgia" 











下 面 的 代码 演示 了 对 部 分 行 标签 进行 修改 的 方法 , 这 个 例子 比较 简单 , 我们 不 再 做 过 多 的 解释 。 


> QImnamGS INS oata) ll [li:3) = CA AlbY, MALSY, "ArzY) 

~ imnameslus oatay lil toe8] 三 "Col, Trent "Del™) 

> dimnames'(US! Gata) [li]] 

[i “Alb ATe™ mama "Mrkansas” "California" 
[6 Coln es 中 站 全 Elorddan "Georgia" 


6.3.3 ”缺失 值 的 处 理 

现实 中 所 面 对 的 数据 集中 包含 缺失 部 分 是 很 常见 的 。 比 如 你 发 出 的 调查 问卷 中 包含 十 个 问 
题 ， 在 回收 到 的 有 效 反馈 中 如 有 某 份 文件 中 只 有 九 个 问题 被 受 访 者 回答 ， 那 么 在 这 个 数据 条 目 
中 ， 就 出 现 了 一 个 空缺 。 再 比如 ， 世 界 银行 对 全 球 各 经 济 体 所 做 的 统计 调查 中 ， 如 果 某 个 国家 
正 处 于 战乱 中 ， 那 么 该 国 的 经 济 数据 就 可 能 无 法 获取 ， 这 也 就 造成 了 一 条 缺失 数据 。 


数据 缺失 很 常见 , 但 是 它 的 影响 却 不 容 忽视 , 缺失 值 可 能 对 最 终 的 分 析 结 果 产 生 重 大 影响 ， 
因此 缺失 值 的 处 理 往往 是 数据 预 处 理 中 的 重点 。 当 我 们 获得 一 份 数据 时 ， 首 先 应 该 判断 它 是 否 
完整 。R 中 用 来 判断 数据 是 否 缺 失 的 函数 主要 有 两 个 。 其 中 ， 最 基本 也 常用 的 函数 是 is.na()。 
该 函数 比较 简单 ， 下 面 通过 一 个 例子 来 演示 其 使 用 方法 。 首 先 截取 系统 数据 集 airquality 中 五 月 
份 头 七 天 的 空气 质量 数据 作为 原始 数据 ， 然 后 用 is.na() 来 分 析 其 中 是 否 包含 缺失 值 。 
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osname ee 


» alr datal maurauali ty tl: :a 
> io.na(atr data) 

Ozene Solar,R Windq em 
1 FALSE FALSE FALSE FALSE 
2 FALSE FALSE FALSE FALSE 
3 FALSE FALSE FALSE FALSE 
4 FALSE ,FALSE FALSE FALSE 
5 TRIE TRUE FALSE FALSE 
6 FALSE TRUE FALSE FALSE 
了 FALSE FALSE FALSE FALSE 





对 照 原 始 数据 来 看 ， 这 个 结果 是 非常 明晰 的 。 函 数 is.na() 作 用 于 和 矩阵 air_data 之 后 ， 如 果 对 应 位 
置 的 数值 是 缺失 的 ， 则 返回 TRUE;， 和 否则 返回 FALSE。 如 果 使 用 求 和 函数 ， 则 可 知 该 组 数据 一 
包含 三 个 缺失 值 。 

>"'suml(is.na(lair Gata)) 

es a te 


另 一 个 用 来 判断 缺失 数据 的 函数 是 complete.cases()， 其 返回 值 为 判定 结果 的 逻辑 向 量 ， 但 
取 值 却 与 is.na() 相 反 。 缺 失 值 位 置 所 对 应 的 结果 是 FALSE， 而 正常 数据 位 置 所 对 应 的 结果 是 
TRUE。 因 此 ， 利 用 它 来 选取 无 缺失 的 数据 通常 更 为 方便 。 注意 ， 由 于 complete.cases() 函 数 返 回 
的 是 一 个 向 量 ， 因 此 当 输 入 的 是 一 个 矩阵 时 ， 它 判定 的 是 每 一 行 是 否 完整 。 如 果 想 判定 单独 某 
列 是 否 完整 ， 则 要 使 用 如 下 示例 代码 中 的 第 二 条 语句 。 
> oommletecases (lair data) 
[1] .TRUE ,TRUE TRUE TRUE FALSD FALSE TROE 


> tomplete.cases(air dataSO2one) 
[LITRE "TRUE TRUE TRUD FALSE RUE TRUE 


当 数据 量变 大 时 ， 像 上 面 这 样 逐 行 检视 判定 结果 显得 很 不 灵 便 。 功 能 强大 的 R 为 我 们 提供 
了 其 他 选择 。VIM 程序 包 提供 了 在 R 中 探索 数据 缺失 情形 的 新 途径 ， 它 实现 了 对 数据 缺失 情形 
的 可 视 化 。 此 处 ， 我 们 截取 了 数据 集 airquality 中 五 月 份 各 天 的 空气 质量 数据 作为 原始 数据 ， 然 
后 利用 VIM 程序 包 中 的 aggr() 函 数 进行 可 视 化 显示 。 
> library(VIM) 


> airr ata + alrdquality[hi3r, 4 
>laggr (air datar las 中 1, numbers = TRUR) 


上 述 代码 的 执行 结果 如 图 6-7 所 示 。 其 中 左 图 由 小 长 条 的 长 度 给 出 了 各 变量 缺失 数据 的 比例 ， 
可 见 Wind 和 Temp 变量 数据 都 是 完整 的 ,而 Ozone 和 SolarR 变量 分 别 缺 失 了 16.1% 和 12.9%。 
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Ozone SoiarR Wind Temp Qzone SotarR Wind Temp 
图 6-7 数据 缺失 情况 的 可 视 化 


图 6-7 中 的 右 图 显示 了 组 合 缺 失 情况 ,， 右 侧 的 标注 显示 了 各 种 组 合 所 占 之 比例 。 注 意图 6-7 
的 右 图 中 浅 色 部 分 表示 数据 完整 ， 而 深 色 部 分 表示 数据 缺失 。 由 于 在 总 共 31 条 数据 中 ， 四 个 变 
量 都 齐全 的 条 目 共有 24 条， 反映 在 图 中 ， 则 有 最 下 面 一 行 全 部 为 浅 色 。 而 且 图 6-7 的 右 图 中 给 
出 的 完整 数据 占 比 为 24/31=77.4%。Ozone 变量 残缺 但 其 他 三 个 变量 都 完整 的 条 目 共 有 三 条 ， 所 
以 (从 下 往 上 数 ) 第 二 行 给 出 的 占 比 为 3/31=9.7%。 同 理 ， 变 量 SolarR 缺失 但 其 他 三 个 变量 都 
完整 的 条 目 共 有 两 条 ， 所 以 第 三 行 给 出 的 占 比 为 2/31=6.5%。 最 后 ， 变 量 Ozone 和 Solar.R 同时 
缺失 但 其 余 两 个 变量 都 完整 的 条 目 共 有 两 条 ， 所 以 最 上 面 一 行 给 出 的 占 比 为 2/31=6.5%。 

既然 已 经 得 知 了 数据 有 缺失 ， 自 然 不 能 坐视 不 管 。 在 有 缺失 数据 的 情况 下 进行 数据 分 析 是 
不 可 靠 的 。 在 此 ， 介 绍 两 种 简单 的 处 理 缺 失 数据 的 方法 。 

。 删除 缺失 样本 

滤 除 掉 缺 失 样 本 是 最 简单 的 方法 ， 当 然 选 择 这 种 策略 的 前 提 是 缺失 的 数据 占 比 较 少 ， 
缺失 数据 是 随机 出 现 的 。 在 满足 这 样 的 条 件 下 ， ee 
很 大 影响 。 

在 R 中 利用 complete.cases() 函 数 来 选取 完整 的 样本 记录 是 一 种 非常 简便 的 方法 ， 下 面 给 出 
示例 代码 。 己 知 在 数据 集 airquality 中 五 月 份 各 天 的 空气 质量 数据 都 完整 的 记录 共有 24 条 ， 可 
见 我 们 的 处 理 是 正确 的 。 
> datal = alc datalcomplete.cases(air data),l 


> dim(datal) 
全 本 


另外 ， 用 is.na() 函 数 也 可 以 实现 同样 的 滤 除 效果 ， 但 是 写法 上 显然 要 比 使 用 上 面 给 出 的 方法 复 
杂 一 些 。 这 时 函数 complete.cases() 的 优势 就 显现 出 来 了 。 


» datAa2= ,air datal (lis.nalair datasOone)) 
+ &(!lis.na(lair data$Ssolar.R)),] 
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> dim(data2) 

[1] 24 4 

如 果 你 在 R 中 发 现 要 实现 一 种 功能 貌似 写法 上 很 元 长、 很 烦琐 ， 那 一 定 是 有 简单 的 方法 你 没 找 
到 。R 是 拒绝 元 长 和 烦琐 的 ， 它 永远 会 为 我 们 提供 最 便捷 和 简单 的 方法 。 所 以 滤 除 缺失 样本 的 
一 种 更 加 简洁 的 方法 是 使 用 na.omit() 函 数 , 它 在 面 对 有 多 个 变量 缺失 的 数据 时 , 显得 尤其 方便 。 
> data3 = na.omit (air data) 


> dim(data3) 
[1] 24 4 


。 替换 掉 缺 失 值 


缺失 值 也 不 一 定 非 要 完全 删除 ， 通 过 赋值 来 对 其 进行 填补 是 最 常见 的 一 种 处 理 手 段 。 用 均 
值 或 中 位 数 来 代替 缺失 值 是 用 填补 法 时 的 通常 处 理 策略 。 这 样 做 并 不 会 减少 样本 信息 。 但 它 也 
同样 要 求 缺 失 数 据 是 随机 的 , 否则 可 能 会 出 现 较 大 偏差 。 下 面 的 示例 代码 演示 了 这 种 处 理 方 法 。 
>r aTradata2 liatridata 
> "airidata2sOsonelis.nal(arri data2S0ozonej] = 

median(air data$Ozone[!is.nal(lair data$0zone)]) 
> air data2$Solar.R[is.nal(air data2$Solar.R)] = 
round (mean (air data$Solar.R[!is.na(lair data$Solar.R)])) 


用 平均 值 和 中 位 数 来 取代 缺失 值 仅 仅 只 对 数值 型 数据 可 行 。 如 果 是 分 类 数据 ， 则 可 用 最 多 
出 现 或 者 出 现 次 数 居中 的 类 别 来 蔡 换 。 

以 上 所 介绍 的 方法 仅仅 是 最 基本 、 最 简单 的 缺失 数据 处 理 方法 。 现 今 学 术 界 在 处 理 缺 失 数 
据 方面 也 已 经 提出 了 很 多 其 他 更 为 复杂 的 方法 ， 例 如 基于 蒙特 卡 洛 模拟 的 多 重 插 补 方法 等 。R 
中 也 有 很 多 软件 包 来 支持 这 些 复杂 的 缺失 数据 处 理 技术 。 建 议 有 兴趣 的 读者 参阅 其 他 相关 资料 
以 了 解 更 多 细节 。 


wwaibbt.com DODOODDOD 


117 


第 人 章 
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R 语言 中 常用 的 数据 结构 有 向 量 、 拢 阵 、 列 表 、 数 据 框 、 因 子 和 表 等 ， 向 量 和 和 矩阵 已 经 在 
第 2 章 中 介绍 过 了 ， 本 章 着 重 介 绍 后 几 种 数据 结构 。 前 面 我 们 曾经 提 过 ，R 中 的 基本 数据 类 型 
有 四 种 ， 也 称 之 为 四 种 模式 (mode): 数值 型 (numeric)、 字 符 型 (character)、 罗 辑 型 (logical) 
和 复数 型 (complex)。 其 中 数值 型 又 包含 两 种 : 整 型 (integer) 和 双 精 度 浮 点 型 double)。 不 
过 R 中 并 没有 这 些 基本 类 型 的 原子 数据 ， 即 使 是 最 简单 的 数据 也 会 被 处 理 成 长 度 为 1 的 向 量 。 
所 以 向 量 被 认为 是 R 中 最 简单 也 最 基本 的 数据 结构 。 本 章 所 介绍 的 均 为 结构 型 数据 ， 但 要 比 向 
量 和 和 矩阵 更 进一步 。 


7.1 列表 


对 于 列表 ,熟悉 其 他 编程 语言 的 读者 ， 可 以 类 比 Python 中 的 字典 , 或 是 C 语言 里 的 结构 体 
类 型 。 额 外 提 一 句 ， 虽 然 Python 中 也 有 列表 ,但 二 者 在 使 用 上 有 很 大 区 别 。R 中 的 列表 在 使 用 
方式 上 反而 更 类 似 于 Python 中 的 字典 。 列 表 是 R 中 十 分 基础 且 重 要 的 数据 类 型 ， 可 以 说 列表 是 
R 的 结构 型 数据 中 最 为 复杂 的 一 种 。 数 据 框 和 面向 对 象 编程 很 大 程度 上 也 都 依赖 于 此 。 


7.1.1 列表 的 创建 

列表 其 实 就 是 向 量 的 泛 化 ， 也 就 是 一 些 对 象 〈 或 组 件 ，component) 的 有 序 集合 。 这 一 点 和 
向 量 很 像 ， 不 过 向 量 是 由 相同 类 型 之 数据 构成 的 序列 ， 而 列表 可 以 将 若干 不 同 数据 结构 的 对 象 
整合 在 一 起 ， 比 如 : 向 量 、 和 矩阵 、 列 表 、 数 据 框 等 。 这 就 意味 着 列表 中 可 以 同时 存在 不 同类 型 
的 数据 。 从 这 个 意义 上 来 说 ， 列 表 比 向 量 更 复杂 。 


此 外 ， 第 2 章 中 讲述 的 向 量 ， 我 们 一 般 称 之 为 “原子 型 ”的 向 量 ， 即 指向 量 所 包含 的 元 素 . 
已 经 是 最 小 单位 ， 不 可 再 分 。 而 列表 则 被 认为 是 “递归 型 ”的 向 量 ， 即 列表 的 元 素 是 可 以 再 分 
的 。 


以 超市 货品 数据 为 例 ， 可 以 用 列表 A 存储 每 一 种 货物 ， 列 表 A 中 的 每 一 个 元 素 可 被 视 为 一 
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种 货物 。 对 于 每 一 种 货物 ， 可 用 另 一 种 列表 B 存储 其 各 方面 的 属性 ， 比 如 名 称 、 价 格 、 生 产 日 
期 等 信息 。 创 建 一 个 列表 来 表示 某 种 商品 ， 比 如 Cookie 饼干 : 


> goods <- list (name="Cookie", price=4.00, outdate=FALSE) 


上 述 例子 使 用 list 函数 创建 了 一 个 名 为 goods 的 列表 ，list 函数 内 部 的 参数 由 标签 名 和 对 应 的 值 
构成 。 此 例 中 name、price 和 outdate 就 是 标签 ， 可 以 理解 为 列表 的 各 个 属性 名 称 ， 指 代 一 件 商 
品 的 名 称 、 价 格 和 是 否 过 期 。 而 “Cookie” 4.00 和 FALSE 则 是 上 述 标签 的 对 应 取 值 。 标 签 和 
取 值 均 可 由 用 户 指定 。 下 列 代码 将 打印 出 goods 列表 以 便 查看 。 

> goods 


Sname 
[EvoKLe, 


Sprice 
[1] 4 


Soutdate 
[1] FALSE 


使 用 typeofO) 函 数 ， 可 以 查看 上 述 列 表 的 三 个 元 素 类 型 。 


> typeof (goodssname) 
[1] "characterr 

> typeof (goods$price) 
[1] "double" 

> typeof (goods$outdate) 
[aa 


由 此 可 发 现 列表 已 经 被 成 功 创建 ， 并 且 可 以 包含 不 同 的 基本 数据 类 型 。 事 实 上 ， 标 签 是 可 
以 不 指定 的 。 不 过 为 了 便于 阅读 理解 ， 减 少 犯错 误 的 可 能 ， 建 议 读 者 指定 标签 名 。 若 不 指定 标 
签名 ， 结 果 将 变 成 下 面 这 样 : 


> goods2 <- list("Cookie”, 4.00, FALSE) 
> goods2 

Ell 

[1] "Cookie" 


bl2]4 
,[1] 4 


[[31] 
[1] FALSE 
此 种 情况 下 ，R 会 采用 默认 的 标签 名 即 数值 。 数 值 虽然 简洁 ， 不 过 当 标 签 数量 过 大 时 却 难 
以 理解 、 容 易 出 错 。 另 外 ， 因 为 列表 也 算是 特殊 的 向 量 ， 故 而 也 可 以 使 用 vector0 函 数 创建 。 示 
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例 代码 如 下 : 


> temp <- vector (mode="]1ist") 
> templ["nameW®]] <~ "Cookie" 
> temp 

Sname 

PRT ooroW en 


7.1.2 ”列表 元 素 的 访问 


列表 元 素 的 访问 方式 主要 有 两 种 ， 按 名 称 索引 或 按 数字 索引 。 其 中 ， 按 名 称 索引 ， 顾 名 思 
义 即 使 用 列表 元 素 的 名 称 进行 访问 ， 按 数字 索引 ， 即 使 用 元 素 在 列表 中 的 位 置信 息 进行 访问 ， 
此 处 的 位 置信 息 是 列表 创建 时 R 采用 的 默认 标签 名 。 比 如 ， 我 们 想 访问 goods 列表 中 的 name 
元 素 ， 有 具体 方法 如 下 : 


> goods$name 
fli veEoorien 
> ,goods[[name' |] |] 
Li] onkie 
bo rave el: | 
[t,ookie"n 


前 两 种 方式 是 按 名 称 索 引 ， 最 后 一 种 方式 则 是 按 数字 索引 。 上 述 三 种 访问 方式 在 不 同 的 情 
况 下 各 有 优势 。 需 要 注意 的 是 后 两 种 写法 是 双方 括号 ， 而 非 单方 括号 。 双 方 括号 返回 的 是 对 应 
元 素 的 取 值 ， 返 回 值 本 身 的 数据 类 型 不 会 变化 。 而 单方 括号 同样 可 以 访问 列表 元 素 ， 不 过 返回 
的 却 是 一 个 新 的 列表 ， 即 原 列表 的 子 列表 。 仍 以 goods 列表 为 例 ， 则 有 : 


> hl < goodnt name" | 
» hh2 < DOQs | 
































> CLase/hly # 查 看 hl 的 类 型 
[hm # 类 型 为 列表 
> 

$name 


[tl "Cookien 


> class (h2) # 查 看 h2 的 类 型 
[Tl viistn 

> hh2 

sname 

{LT "Cookier 


> class(goods[["name"]|]) 


[1] "character" # 类 型 为 字符 
> class(goods[[11]]) 
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[1] "character" 
由 此 可 以 清楚 地 发 现 双方 插 号 和 单方 括号 之 间 的 区 别 。 因 为 上 例 中 的 “name” 元 素 是 字符 串 ， 
所 以 双方 括号 返回 的 类 型 为 字符 型 ， 若 是 数值 型 的 ， 则 返回 的 数据 类 型 为 “numeric”。 而 单方 
括号 返回 的 则 是 一 个 新 的 列表 。 

因此 ， 单 方 括号 通常 用 来 获取 原 列表 的 一 段子 列表 。 当 然 子 列表 在 原 列表 中 须 是 连续 的 一 
段 ， 用 户 须 指明 开始 与 结束 的 数值 下 标 。 此 处 关 使 用 双方 括号 ， 则 会 出 错 。 


> goods[1:2] 
$name 
[11 "Cookie™ 


$price 
[Lj4 


> goodstllit2) 
Error in goodst [1:2]] » subscript out of bounads 


上 例 中 ， 我 们 截取 了 goods 列表 的 头 两 个 元 素 ， 生 成 了 一 个 新 的 列表 。 易 见 使 用 双方 括号 
时 ， 系 统 提 示 下 标 出 界 。 这 就 是 因为 双方 括号 一 次 只 能 提取 列表 的 一 个 元 素 ， 返 回 值 是 元 素 本 
吴 的 类 型 而 非 列 表 。 

最 后 介绍 列表 标签 名 的 访问 方式 。 当 列表 存在 标签 时 ， 可 通过 names() 函 数 访问 列表 的 标签 
名 。 如 果 标 签名 不 存在 ， 则 返回 空 字符 串 。 同 样 以 goods 列表 为 例 ， 则 有 : 


> names (goo0ds) 
[1] "name" Ge "outdate™ 


7.1.3 ”增删 列表 元 素 

在 平常 使 用 中 ， 不 论 是 单独 的 列表 ， 还 是 由 列表 构成 的 更 为 复杂 的 数据 结构 ， 比 如 数据 框 
和 面向 对 象 编程 中 的 类 (class)， 经 常 需要 增加 和 删除 列表 的 元 素 。 根 据 元 素 访问 方式 的 不 同 ， 
增删 元 素 的 方式 也 不 同 。 仍 然 以 goods 列表 作为 例子 : 


> goods 
$name 
[1] "Cookie" 


$price 
[1] 4 


$outdate 


[1] FALSE 
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查看 一 下 goods 列表 中 的 元 素 , 可 以 发 现 只 有 三 个 属性 , 对 应 的 标签 分 别 为 : 名 称 “name 
价格 “price” 和 是 否 过 期 *outdate ”然后 , 通过 “$” 符 号 添加 一 个 新 的 标签 : 生产 厂家 “producer”， 
并 赋值 为 “A Company”。 最 后 再 次 查看 列表 goods， 我 们 可 以 发 现 新 的 元 素 “producer” 已 经 添 
加 完毕 。 此 处 须 注意 ， 添 加 新 标签 须 赋值 初始 化 ， 否 则 元 素 不 会 被 添加 。 


上 述 例子 中 使 用 “$” 符 号 添加 新 标签 。 同 样 ， 我 们 可 以 使 用 另外 两 种 访问 列表 元 素 的 方式 
来 添加 新 元 素 。 示 例如 下 : 





Nl 1 ， 和 人 


删除 列表 元 素 的 方法 非常 简单 ， 直 接 将 对 应 元 素 的 值 赋 为 NULL 即 可 。 须 注意 的 是 必须 为 
大 写 ， 即 null 并 不 能 用 来 删除 元 素 。 
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入 了 汪 痪 级 发 汪汪 和 


> goods$material <~ NULL 
> goods 

Sname 

[TYGCoekaen 


SPprice 
Noa oe 


soutdate 
[LY FALSE 


$producer 
Li] A Comoany 


a 
[1 

删 掉 “material” 标 签 后 ， 后 面 的 元 素数 值 索引 自动 减 1， 由 goods[[6]] 变 为 goods[[5]]。 当 
然 ， 根 据 元 素 访问 方式 的 不 同 ， 删 除 的 写法 也 有 些许 不 同 ， 此 处 不 再 资 述 。 
7.1.4 ”拼接 列表 

R 中 的 c0) 函 数 通常 被 用 来 拼接 其 参数 。 默 认 情 况 下 返回 值 是 一 个 向 量 ， 所 以 也 常 被 用 来 创 
建 向 量 。 函 数 返 回 值 类 型 会 根据 参数 的 类 型 决定 ， 参 数 类 型 的 具体 优先 级 为 : NULL < raw < 
logical < double < complex < character < list < expression。 来 看 下 面 这 段 示 例 代 码 。 






































> c(list(A=s1,c="C") ,1ist (new="NEW")) 


Snew 
[二 uvNEW" 


函数 c0 中 还 包含 一 个 可 选 参数 recursive， 默 认 情 况 下 recursive 参数 为 FALSE。 如 果 人 为 
将 其 设 为 TRUE， 那 么 该 函数 会 将 待 拼接 的 列表 〈 包 括 递归 列表 ) 的 所 有 元 素 取出 ， 并 返回 由 
这 些 元 素 构 成 的 向 量 。 因 此 ， 使 用 c0) 函 数 亦 可 将 列表 转化 为 向 量 。 我 们 将 在 7.1.5 节 中 详细 介 
绍 。 


7.1.5 ”列表 转化 为 向 量 
R 中 的 unlist0 函 数 可 用 来 将 列表 转换 为 向 量 。 若 列表 包含 标签 名 ， 则 转换 后 的 向 量 同样 包 
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db mW dd ed 


含 元 素 名 。 
>unlist(goods) 
name price outdate producer 
nCookien 4 "FALSE"” "A Company" mm 


将 元 素 名 赋值 为 NULL 可 去 掉 元 素 名 称 , 当然 也 可 以 使 用 unname() 函 数 直 接 去 掉 元 素 名 。 例 如 : 


> ngoods <- unlist(goods) 
> names (ngoods) 


[GREY ELCen "outdate" "Producer 一 YY 

> narmes(ngocds) <- NULL 

> ngoods 

[1] Cockien 下 本 "FALSE" "A Company” A 


> mgoods <- unlist (goods) 
> names (mgoods) 


1 "ame "price™ Voutdate" AronRGery 本 全 世 
> unname (mgoods) 
JM Cookiedl Wi MEALOEY Wn 


函数 unname() 返 回 的 是 去 除 元 素 名 后 的 新 向 量 ， 原 来 的 向 量 mgoods 并 没有 改变 。 另 外 ， 
细心 的 读者 应 该 可 以 发 现 经 过 unlist() 函 数 转化 后 ， 原 来 列表 中 的 元 素 全 部 变 成 了 字符 串 。 这 是 
因为 在 混合 类 型 的 情况 下 ，R 会 选择 这 些 类 型 中 能 最 大 程度 地 保留 其 共同 特性 的 数据 类 型 。 上 
例 包含 字符 串 类 型 和 数值 类 型 ， 所 以 R 将 其 全 部 转换 成 了 字符 串 类 型 。 换 言 之 ，R 中 的 数据 类 
型 是 存在 优先 级 的 ， 也 就 是 7.1.4 节 中 给 出 的 优先 级 顺序 。 


此 外 ， 在 7.1.4 节 中 我 们 讲述 过 拼接 函数 c() 的 可 选 参数 recursive。 它 真正 的 用 处 是 在 拼接 
列表 时 , 将 递归 列表 的 “递归 结构 ” 打 散 , 并 将 所 有 的 元 素 取出 组 成 一 个 向 量 。 因此 , 除了 unlist() 
函数 ， 我 们 还 可 以 使 用 cO 函 数 将 列表 转化 为 向 量 。 来 看 下 面 这 段 示例 代码 。 
> cl(goodsy recursive=T) 


name price outdate producer 
MCGookiew™ rath TEALSEW "A Company" 办 


需要 注意 的 是 ，recursive 为 真 时 得 到 的 是 向 量 ， 而 recursive 为 假 时 得 到 的 是 递归 的 列表 ， 
切 勿 弄 混 。 
7.1.6 ”列表 上 的 运算 

在 列表 的 使 用 中 ， 有 时 需要 对 列表 的 各 个 元 素 执行 一 些 操 作 ， 比 如 求 平均 值 。 为 了 能 够 方 
便 地 对 每 个 组 件 执行 操作 ， 我 们 需要 使 用 lapply0 和 sapply() 函 数 。 其 用 法 和 apply() 函 数 类 似 ， 


不 过 lapply() 函 数 返 回 的 是 一 个 列表 。sapply() 函 数 是 lapply0) 函 数 的 封装 ， 返 回 的 可 以 是 矩阵 或 
者 向 量 。 当 sapply0 中 的 参数 simplify 和 USE.NAMES 均 为 FALSE 时 ， 其 功能 和 lapply() 一 致 。 
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> "temp <~ Mist (lr10nr23,-9) 
>' lapply (temp, mean) 

[到 

[15,5 


[L211 
ji 


> sapply (temp,mean) 
bith SS 


es 


> sapply (temp,mean,simplify=FALSE,USE.NAMES=FALSE) 


GE 
[a BS 


EL23] 
ER 


上 例 中 我 们 先 创 建 了 一 个 列表 temp， 列 表 的 每 一 个 元 素 均 为 一 个 数值 型 向 量 。 然 后 使 用 

















lapply0 函 数 和 mean() 函 数 对 列表 的 每 一 个 元 素 求 取 平 均值 。 返 回 结 果 为 一 个 列表 ， 由 原 列表 中 


每 个 元 素 的 平均 值 构 成 。 然后 使 月 





日 sapplyO 函 数 求 取 列表 每 个 元 素 的 平均 值 , 返回 结果 为 一 个 癌 





量 。 最 后 ， 将 sapply0) 函 数 的 simplify 和 USE.NAMES 参数 设 为 FALSE。 再 次 运行 ， 返 回 结果 


为 列表 ， 和 lapply0 函 数 的 功能 一 致 。 


7.1.7 ”列表 的 递归 


前 面 曾经 讲 过 普通 向 量 的 元 素 是 原子 型 的 数据 ， 而 列表 是 “递归 型 ”的 向 量 ， 即 列表 的 元 
素 可 以 是 列表 。 以 前 面 使 用 的 超市 商品 数据 为 例 ， 则 有 : 

















warehouse <- list (al, a2) 
warehouse 

bE 

LTSname 

[41 "Cookien 


NV Y= VY 


[[1]]$price 
[LJ 4 


[iL lS outdate 
[1]. FALSE 


生生 | 


al <- list(name="Cookie", price=4.0, outdate=FALSE) 
a2 <- list(name="Milk",. price=2,.0, outdate=TRURE) 
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[[211s$name 
{I Nd 


[2 seruce 
[11 2 


[[2]1$outdate 
[1) TRUE 


此 例 中 ，al 和 a2 列表 记录 的 是 两 件 商品 的 信息 ，warehouse 列表 则 由 这 些 记录 商品 信息 的 
列表 组 成 ， 从 而 构成 一 个 递归 列表 。 当 然 实际 使 用 中 的 列表 结构 应 该 更 为 复杂 ， 包 含 的 元 素 属 
性 也 更 为 详尽 。 比 如 每 件 商品 应 该 有 一 个 唯一 的 id 号; 或 者 同类 的 商品 放 在 一 个 列表 中 ， 如 此 
一 来 ，warehouse 列表 中 存放 的 是 一 堆 类 别 列 表 ， 而 每 一 类 的 列表 下 才 存 放 具体 的 每 一 件 商品 ， 
这 就 是 一 个 典型 的 三 层 递 归结 构 的 列表 。 感 兴趣 的 读者 可 以 自己 尝试 ， 此 处 不 再 歼 述 。 





























7.2 ”数据 框 


从 形式 上 看 ， 数 据 框 和 矩阵 其 实 十 分 相似 ， 有 行 和 列 两 个 维度 。 不 过 在 数据 框 中 ,“ 列 ” 表 
示 变 量 ， 而 “ 行 ”表示 变量 的 观测 记录 。 并 且 不 同 于 和 矩阵， 数据 框 的 每 一 列 可 以 是 不 同 的 模式 
(mode), 即 不 同 列 包含 的 基本 数据 类 型 可 以 不 同 。 从 这 一 点 上 来 看 , 数据 框 更 像 是 列表 的 扩展 。 
如 果 把 数据 框 当成 列表 ， 那 么 数据 框 的 每 一 个 元 素 或 组 件 (component， 此 处 指 每 一 列 ) 都 可 以 
被 看 成 一 个 向 量 ， 并 且 每 一 个 向 量 的 长 度 都 一 致 。 另 外 ， 数 据 框 也 可 以 竺 套 ， 不 过 实际 使 用 中 
每 一 个 组 件 通常 都 是 向 量 。 


7.2.1 数据 框 的 创建 


按照 上 面 的 思路 创建 数据 框 其 实 非 常 简单 ， 关 键 的 函数 是 data.frame()。 比 如 ， 我 们 希望 创 
建 一 个 数据 框 显 示 某 时 某 地 不 同 近视 程度 的 男女 人 数 ， 则 可 以 使 用 下 面 的 代码 ; 


> male <- c(124,88,200) 
> female <— ell108, 56，221) 
> deoree +" Cow middie", high") 
> myopia <- data.frame (degree,male, female) 
> myopia 
degree male female 
J low 124 108 
2 middie 88 56 
3 high 200 221 


上 述 代码 首先 创建 了 三 个 向 量 ， 分 别 存储 数据 框 中 每 一 列 的 数据 ， 最 后 通过 data.frame() 函 
数 将 三 个 向 量 整合 成 数据 框 。 从 生成 的 数据 框 可 以 发 现 ， 每 一 列 的 标签 名 就 是 向 量 的 名 称 。 如 








TI 


























wwaibbt.cm0000000 
126 


第 了 革 高 级 收据 5 和 


果 在 创建 数据 框 时 ， 里 面 的 参数 并 没有 相应 的 名 称 ， 那 么 生成 的 数据 框 将 会 以 组 件 的 取 值 命名 
标签 。 因 此 为 了 简洁 易 懂 ， 建 议 参数 带 上 相应 的 名 称 。 示 例如 下 : 


> myopia2 <- data.frame(c("low","middle","high"), 
+ CcC(124,88,200),c(108,56,221)) 


> myopia2 
velowss midale. whioqly Olas 00 cal D6 < 22%. 
1 low 124 108 
2 middle 88 56 
3 high 200 2 


此 外 需要 注意 的 是 ， 假 设 我 们 在 创建 数据 框 时 各 个 向 量 的 长 度 不 一 致 ， 那 么 相对 较 短 的 向 
量 会 按 “ 循 环 补 齐 ” 的 原则 将 数据 框 补充 完整 。 即 较 短 的 向 量 会 重复 自身 ， 直 到 长 度 与 最 长 的 
向 量 相 一 致 。 


Walglt «= (S07 170.6 B00 S905) 
age <- c¢(20, 30) 

wag <- data.frame (weight, age) 
wag 

weight age 

i -50020 
2 T1060 
六 TMG 人 和 
人 


YEWNW V VY 


为 了 便于 观察 ， 我 们 可 以 使 用 str() 函 数 查 看 数据 框 的 内 部 结构 ， 例 如 : 
> str (myopia) 
'data.frame': 3 obs. of 3 variables: 
$ degree: Factor w/ 3 levels "high","]ow","middle": 2 .31 
$ male : num 124 88 200 
$ female: num 108 56 221 

第 一 行 结果 告诉 我 们 , 数据 框 myopia 有 三 个 变量 的 三 条 观测 记录 。 每 个 变量 可 以 理解 为 数 
据 框 的 一 列 ， 而 每 一 个 观测 为 数据 框 的 每 一 行 数据 。 之 后 三 行 输出 点 明了 数据 框 中 每 一 列 的 名 
称 及 取 值 。 因 此 ， 我 们 在 讨论 数据 框 时 将 交替 使 用 术语 “ 列 ” 和 “变量 ”。 

同时 ， 可 以 发 现 数据 库 myopia 的 组 件 “degree” 从 向 量变 成 了 因子 。 这 是 因为 data.frame() 
函数 的 参数 stringsAsFactors 默认 情况 下 为 TRUE， 因此 会 将 向 量 转化 成 因子 。 若 是 不 希望 向 量 
变 为 因子 , 只 需 在 创建 数据 框 时 将 此 参数 设 定 为 FALSE 即 可 。 我 们 会 在 本 章 后 面 详细 介绍 因子 ， 
不 过 此 处 “degree” 组 件 是 否 为 因子 影响 不 大 ， 读 者 可 以 忽略 。 

最 后 ， 我 们 再 介绍 另 一 种 创建 数据 框 的 方式 一 一 读 取 数据 文件 。 此 处 的 数据 文件 指 的 是 文 


本 文件 、Excel 文件 等 常见 统计 软件 的 数据 文件 。 此 处 我 们 以 read.csv 函数 为 例 ， 读 取 文 件 并 建 
立 数 据 框 。 示 例如 下 : 
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> rat <- read.csv("F:/R/data/rat fibres.csv") 


7abt 
rat retioulated puncotate both' tyee TT 
让 , 于 TB S hile, 
2 2 2 8 4 432 
3 3 9 2 和 46 
4 4 4 5 之 12 
5 5 2 12 7 24 


> class (rat) 
[1] “data.frame”" 


7.2.2 ”数据 框 元 素 的 访问 


因为 数据 框 与 列表 和 和 矩阵 存在 不 少 相 似 性 ， 所 以 在 访问 方式 上 也 继承 了 二 者 的 一 些 特性 。 
首先 ， 从 列表 的 角度 ， 我 们 可 以 通过 组 件 的 名 称 和 数值 索引 值 来 访问 数据 库 的 组 件 。 以 myopia 
列表 为 例 ， 则 有 : 
> myopia$degree 
[i LON middle high 
Levels: high low middle 


> myopia[["degree"]] 
[1] low middle high 
Levels: high low middle 


> myopia[l[1]1] 
FE EOw middle high 
Levels; high low middle 


当然 ， 我 们 也 可 以 用 和 矩阵 的 方式 访问 数据 框 ， 例 如 : 


> myopial1i,] 

degree male female 
全 low 124 108 
>"myoblalz2d 
[EL T88200 
> myopia[3,2] 
FL] 200 


通过 这 几 种 方式 ， 我 们 可 以 访问 每 一 行 、 每 一 列 以 至 于 数据 框 中 的 每 一 个 元 素 。 不 过 使 用 
组 件 名 访问 的 方式 更 为 简明 ， 同 时 也 更 为 安全 ， 在 最 大 程度 上 减少 了 出 错 的 可 能 性 。 毕 竟 比 起 
单纯 的 数字 ， 名 字 更 有 意义 ， 也 更 易 记 忆 。 当 然 ， 在 使 用 R 编写 比较 复杂 的 程序 时 ， 数 值 索引 
访问 的 方式 也 不 可 或 缺 。 
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7.2.3 ”提取 子 数 据 杠 


在 实际 使 用 中 ， 我 们 时 常 需要 提取 数据 框 的 子 数据 杠 

的 方式 访问 数据 框 ， 不 过 行列 可 以 用 向 量 指定 。 
> (sub <= yoPLa[22371422]) 

degree male 
2 middle 88 
3 high 200 
> class (sub) 
E21 
> (subl <- myopia[23372]) 
[1] 88 200 
> class (subl) 
[1] "numeric" 


"data. frame™" 





。 提 取 子 数据 框 的 操作 类 似 于 按 和 矩阵 


上 述 代码 创建 了 原 数 据 框 的 子 数据 框 sub， 在 赋值 语句 外 加 上 括号 会 打印 出 赋值 后 变量 的 值 。 
我 们 可 以 发 现 其 类 型 的 确 是 数据 框 ， 不 过 当 我 们 只 取 数 据 框 的 某 一 列 时 ， 返 回 的 结果 就 成 为 向 
量 。 注意 , 若 我 们 取 的 是 单独 的 一 行 , 返回 类 型 仍然 是 数据 框 。 此 时 , 将 参数 drop 设 定 为 FALSE 


即 可 得 到 数据 框 。 


> (sub2 <- myopial[l2:3,2,drop=F]) 
male 

2 88 

3 200 

> class (sub2) 

[1] “data.frame" 


如 果 我 们 只 指定 一 个 维度 ， 那 么 默认 指定 的 是 数据 框 的 列 。 并 且 ， 不 论 返 回 的 列 数 多 少 ， 


均 为 数据 框 。 例 如 : 


> myopial[l1l:2] 
degree male 

四 low 124 

2 midale” 88 

3. high 1200 

> myopial[l1] 
degree 

El low 

2 middle 

3 aoh 


除去 上 述 类 似 于 和 矩阵 的 访问 方式 外 ， 同 样 可 以 使 用 列 名 提取 子 数据 框 。 


> myopialc("male", 
male female 
1 24 108 


"female™)] 
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2 68 56 
3200 221 
另外 ， 提 取 子 数据 框 时 ， 可 以 使 用 筛选 语句 。 这 就 使 得 数据 框 的 使 用 更 为 灵活 了 。 比 如 ， 
提取 出 男性 近视 人 数 大 于 100 的 观测 组 成 的 子 数 据 框 ， 可 使 用 如 下 代码 : 
> myopialmyopia$male>100,] 
degree male female 
1 Low 124 108 
Ron 200 21 
注意 ， 此 处 方 插 号 中 我 们 使 用 了 “$” 符 号 引用 数据 框 中 的 male 向 量 ， 当 然 其 实 此 处 直接 
使 用 变量 male， 得 到 的 结果 也 没有 问题 。 
> myopial[lmale>100,] 
degree male female 
上 joOw L244 108 
3 "hon 200 al 
不 过 此 处 括号 中 的 male 变量 就 不 是 数据 框 中 的 变量 male 了 ， 而 是 在 创建 数据 框 时 使 用 的 
向 量 male。 因 为 两 者 的 取 值 一 致 ， 所 以 这 样 使 用 不 会 出 错 。 然 而 ， 假 设 系 统 中 维护 的 male 变 
量 取 值 发 生 了 变化 ， 那 么 这 种 写法 产生 的 结果 就 会 地 异 于 正确 的 结果 。 因 此 ， 我 们 还 是 推荐 第 
一 种 规范 的 写法 。 假 设 此 时 我 们 修改 male 向 量 的 取 值 ， 示 例如 下 : 
> male 
[1 124 88 200 
> male < ellv2,3) 
> myopia[male>100,] 
[1] degree male female 
<0 行 > (或 0- 长 度 的 row.names) 
> myopialmyopia$male>100,] 
degree male female 


1 Iow 124 108 
3 high 200 221 


可 以 发 现 ， 此 时 偷懒 的 写法 会 出 错 ， 而 规范 的 写法 产生 的 结果 仍然 正确 。 


7.2.4 数据 框 和 于 列 的 添加 

与 列表 相同 ， 也 可 以 在 数据 框 中 添加 行 或 列 。 数 据 框 的 删除 可 以 直接 通过 提取 子 数据 框 实 
现 ， 所 以 本 小 节 主 要 介绍 在 数据 框 中 添加 行 或 列 的 方法 。 主 要 用 到 的 函数 是 rbind() 和 cbind()， 
不 过 使 用 的 前 提 是 增添 的 数据 需要 和 原 数 据 框 有 相同 的 行 数 或 者 列 数 。 比 如 ，rbind() 函 数 主 要 
用 来 添加 新 行 ， 那 么 要 求 添加 的 数据 和 原 数 据 框 拥有 相同 的 列 数 ，cbind0) 函 数 主要 用 来 添加 新 
列 ， 那 么 新 添加 的 数据 需要 和 原 数 据 框 具有 相同 的 列 数 。 


rbind() 函 数 添加 的 新 行 通常 是 数据 框 或 者 列表 的 形式 ， 例 如 
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names <- cl("Jack", "Steven") 

ages SEES .6) 

students <- data.frame(names, ages, stringsAsFactors=F) 

students 

names ages 

3 -Yack “和 5 

2 Steven 16 

> rbind(students, list("Sariah"™,15)) 
names ages 

入 Jack 15 

2 Steven 16 

Sariah , 15 


上 述 代码 创建 了 一 个 新 数据 框 ， 并 将 stringsAsFactors 参数 设置 为 FALSE, 防止 字符 串 被 转化 为 
因子 。 车 字符 串 数据 被 转化 为 因子 , 那么 在 添加 数据 的 时 候 会 和 因子 的 水 平 (level) 产生 冲突 ， 
详细 情况 我 们 会 在 后 面 再 做 讨论 。 因 此 我 们 重新 创建 了 一 个 不 包含 因子 的 数据 框 ， 以 方便 此 处 
的 介绍 。 


添加 新 列 也 是 相同 的 道理 ， 只 不 过 函数 换 成 了 cbind()。 需 要 注意 的 是 rbind() 和 cbind() 都 会 
返回 一 个 新 的 数据 框 ， 并 不 会 对 原 数 据 框 做 任何 更 改 。 


> cbind(students, gender=c("M", "M")) 
names ages gender 

术 于 可 SSK 15 M 

2 Steven 16 M 


除了 使 用 cbind() 添 加 列 以 外 ， 还 可 以 使 用 类 似 于 列表 中 新 添加 元 素 的 方式 添加 新 列 ， 这 种 
方式 使 用 起 来 更 为 简单 。 
> students 
names ages 


Jack 15 
2 Steven 16 
> 
> 


> 


(LO 


students$gender <- c("M","M") 
students 
names ages gender 

1 Jack .5 M 

Steven 16 M 


同样 地 ， 使 用 students[["gender"]] 和 students[[3]] 蔡 代 students$gender 也 可 以 ， 此 处 不 再 组 
述 。 细 心 的 读者 可 以 发 现 ， 这 种 方式 不 同 于 cbind0 函 数 ， 会 对 原 数据 框 直接 进行 修改 。 既 然 可 
以 使 用 列表 的 方式 添加 新 列 ， 同 样 也 能 使 用 列表 的 方式 删除 新 列 。 


> Students 
names ages gender 
1 Jack 5 M 


DN 
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2 Steven 16 M 
> students$gender <- NULL 
> students 
names ages 
1 -Jack ES 
2 Steven 16 


不 过 和 上 述 添 加 新 列 的 方法 一 样 ， 这 种 方式 本 质 上 是 对 原 数 据 框 直接 进行 修改 。 所 以 ， 建 
议 读者 最 好 还 是 使 用 7.2.3 节 中 提取 子 数据 框 的 方式 删除 不 想 要 的 行列 。 


7.2.5 ”数据 框 的 合并 


有 数据 库 基 础 的 读者 都 明白 将 两 个 表 基 于 相同 的 属性 合并 成 一 个 表 ， 在 关系 数据 库 中 是 十 
分 重要 的 操作 。 同 样 地 ， 对 于 数据 框 而 言 ， 合 并 数据 框 也 是 十 分 常用 且 重 要 的 操作 。 正 如 前 面 
所 说 ， 合 并 数据 框 的 基础 在 于 两 个 数据 框 有 至 少 一 个 同名 的 列 。 之 后 ， 可 以 使 用 merge() 函 数 合 
并 两 个 数据 框 。 
> students 
names ages 


1 -Yack hs 
2 Steven 由 
3 Sarah 14 
> students2 
names gender 
"Jack M 
2 Steven M 
> merge (students,students2) 
names ages gender 
i= .dack 和) M 
2 Steven 16 M 





上 述 两 个 数据 框 students 和 students2 有 一 个 共同 的 列 名 “names”。 因 此 使 用 merge() 函 数 后 ， 
R 会 将 两 个 数据 框 中 变量 “names” 取 值 相同 的 行 ( 即 Jack 和 Steven 所 在 行 ) 提出 ， 然 后 综合 
两 个 数据 框 中 的 列 生成 一 个 新 的 数据 框 。 两 个 数据 框 不 共享 “names” 属 性 的 行 则 被 排除 在 外 。 

函数 merge() 另 外 包含 两 个 十 分 重要 的 参数 by.x 和 by.y, 这 两 个 参数 用 来 指明 两 个 数据 框 中 
名 称 不 同 但 是 包含 相同 内 容 的 变量 。 来 看 下 面 的 示例 代码 。 


> students 
names ages 


1 Jack 15 
2 Steven 16 
3 "Sarah 14 
> students3 

na add 
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1 Jack Beijing 

2 Conan Chongging 

3 Gin Shanghai 

> merge(lstudents,students3,by.x="names",by.y="na") 
names ages add 

1 Jack 15 Beijing 


上 述 代 码 将 students 数据 框 中 的 “names” 列 和 students3 中 的 “na” 列 合并 ， 其 中 ，x 对 应 的 是 
merge() 函 数 中 的 第 一 个 参数 所 指 代 的 数据 框 ，y 对 应 的 是 第 二 个 参数 所 指 代 的 数据 框 ， 切 勿 弄 
混 。 融 合 后 的 变量 默认 使 用 byx 的 取 值 ， 此 处 为 “names”。 

此 外 ，merge() 函 数 还 有 两 个 比较 重要 的 参数 all.x 和 all.y。 这 两 个 参数 是 逻辑 变量 ， 默 认 情 
况 下 为 FALSE。 上 例 返 回 的 新 数据 框 中 只 包含 了 两 个 数据 框 共有 的 成 员 “Jack”， 如 果 设 定 all.x 
为 TRUE， 那么 返回 的 结果 会 包含 所 有 students 数据 框 中 的 成 员 ， 而 其 对 应 的 students3 中 的 变 
量 取 值 则 为 NA。 同 理 ， 若 all.y 为 TRUE， 那 么 students3 中 的 所 有 成 员 会 被 包含 在 结果 中 ， 其 
对 应 的 students 中 的 变量 ， 取 值 为 NA。 


> merge (students,students3,by.y="na",by.x="names",all.x=T) 


names ages add 

1 Jack 15 Beijing 

2 Sarah 14 <NA> 

3 38teven 16 <NA> 

> merge (studentsy students3,by.y="na",by.x="names",all.y=T) 
names ages add 

1 Conan NA Chongqing 
Gin NA Shanghai 

3" Jack 15 Beijing 


若 想 同时 设 定 all.x 和 all.yy， 可 以 直接 设 定 参 数 all， 如 下 : 


> merge (students, students3,by.y="na",by.x="names",all=T) 


names ages add 
1 Conan NA Chonggqing 
2 Gin NA Shanghai 
3 Jack 于 Beijing 
4 Sarah 14 <NA> 
5 Steven 16 <NA> 


函数 merge() 中 还 有 不 少 参数 ， 由 于 篇 幅 所 限 我 们 只 详细 介绍 了 其 中 最 常用 的 几 个 ， 有 兴趣 
的 读者 可 以 查看 R 中 的 帮助 文档 以 了 解 更 多 细节 。 


最 后 ， 在 使 用 merge() 函 数 时 读者 朋友 需要 注意 重复 匹配 的 问题 ， 可 能 会 产生 错误 的 结果 。 
来 看 下 面 这 段 示 例 代 码 。 


> students4 
na add 
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1 Jack Beijing 

2 Conan Chongqing 

Sn Uack Shanghai 

> 'students 
names ages 

1 gack 二 

2 Steven 16 

3 Sarah 14 

> merge (students, studentsd,by.x="names",by.y="na") 
names ages add 

1 Jack Ty Beijing 

2 Jack 0 Shanghai 


不 能 发 现 ，students4 和 students3 只 有 第 三 个 成 员 的 “na” 变 量 不 一 样 ， 其 他 均一 致 。 此 处 
我 们 刻意 使 得 students4 数据 框 中 包含 两 个 重 名 的 成 员 ， 都 叫 作 “Jack”。 其 中 一 个 15 岁 ， 而 另 
一 个 年 龄 未 知 。 之 前 students3 合并 后 结果 中 只 有 一 个 成 员 , 而 现在 使 用 students4 合并 后 结果 中 
产生 了 两 个 成 员 “Jack”， 并 且 都 被 处 理 为 15 岁 。 也 就 是 说 R 将 students 数据 框 中 的 “Jack” 和 
students4 数据 框 匹配 了 两 次 ， 因 此 在 选择 匹配 变量 时 必须 注意 此 类 问题 。 


7.2.6 ”数据 框 的 其 他 操作 


本 小 节 将 介绍 数据 框 的 其 他 常用 操作 ， 主 要 集中 在 数据 的 处 理 上 。 首 先 介 绍 apply 系列 的 
一 些 函数 。 关 于 apply(O) 函 数 我 们 并 不 陌生 ， 此 函数 主要 包含 三 个 参数 : X、MARGIN 和 FUN。 
其 中 ，X 代表 将 要 处 理 的 数据 。 MARGIN 是 用 于 指明 函数 FUN 的 作用 对 象 的 一 个 向 量 。 若 以 
矩阵 为 例 , 则 1 代表 行 ,2 代表 列 ,c(1.2) 代 表 行 和 列 。 如 果 X 包含 命名 的 维度 ,那么 此 处 MARGIN 
也 可 以 是 字符 串 向 量 ， 指 明 被 选 的 维度 名 称 。FUN 则 是 对 数据 进行 具体 操作 的 函数 ， 比 如 求 平 
均值 。 来 看 下 面 这 段 示 例 代码 。 


> students 


names ages 
1 Jack 15 
2 Steven VG 
3 Sarah wh 
> tt<-rbind(students, list ("Kevin",30)) 
> tt$grade <- c(88,74,90,82) 
六 起 蕊 
names ages grade 
1 Jack 5 88 
2 Steven 16 74 
3 Sarah 14 90 
4 Kevin 30 82 
> apply (tt[,2:3,drop=F},2,mean) 


ages grade 
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es 


1820518350 

上 述 代码 在 students 数据 框 的 基础 上 添加 了 一 行 数 据 ， 生 成 了 一 个 新 的 数据 框 tt， 而 后 在 tt 上 

添加 了 一 个 变量 grade 记录 每 个 人 的 考试 成 绩 。 因 为 新 数据 框 并 非 所 有 列 都 是 一 个 数据 类 型 ， 

所 以 提取 出 tt 数据 框 的 第 三 列 和 第 三 列 ， 然 后 按 列 求 取 平均 值 。 
因为 数据 框 是 列表 的 特例 ， 即 数据 框 的 每 一 列 是 列表 的 一 个 组 件 ， 所 以 我 们 同样 可 以 在 数 

据 框 上 使 用 lapply0 函 数 。 不 同 于 apply0 函 数 的 是 ， 我 们 指定 的 操作 FUN 会 直接 作用 于 数据 框 

的 每 一 列 ， 不 需要 指定 按 行 或 按 列 操作 ， 然 后 返回 由 结果 构成 的 列表 。 用 法 和 之 前 的 一 样 。 


> (sl1 < 一 lapplv(students, sort)) 


























$names 

下 Sarahn "Steven" 

$ages 

nb te a 是 丰 

> (sS2 <- sapply(students,sort)) 
names ages 

Ll pack 4 

Dod "Sarah’l wl hy 

[3 StEewen1 Wa 


上 述 代 码 对 students 数据 框 中 的 所 有 列 进行 了 排序 ， 然 而 排序 之 后 数据 框 中 两 个 变量 的 对 应 关 
系 也 就 竺 失 了 。lapply0 返 回 的 是 列表 ，sapply0 返 回 的 是 和 矩阵， 可 以 使 用 as.data.frame() 函 数 将 
结果 转化 为 数据 框 ， 不 过 随 着 对 应 关系 的 丢失 其 意义 不 大 。 


> as.data.frame (sl1) 


names ages 
下 ack 14 
2 Saraly .5 
3 Steven 16 


> as.data.frame (s2) 


names ‘ages 
册 Jack 14 

2 Sanan 15 

3 Steven 16 
7.3 因子 


本 节 将 介绍 7.2 节 中 提 到 过 的 因子 (factor)， 表格 数据 的 运算 很 大 程度 上 也 依赖 于 因子 。 
子 的 设计 思想 来 源 于 统计 学 中 的 名 义 变量 (nominal variable)， 或 称 之 为 分 类 变量 (categorical 
variable )。 顾名思义 ,与 数值 变量 (numerical variable) 相对 应 , 分 类 变量 指 代 的 是 分 类 ， 比如: 
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男性 和 女性 ， 一 般 并 非 数值 。R 中 的 变量 可 以 归结 为 三 种 类 型 : 名义 型 、 有 序 型 和 连续 型 。 其 
中 名 义 型 变量 和 前 文 一 致 ， 并 且 类 别 之 间 没 有 顺序 之 分 。 有 序 型 变量 表示 的 也 是 分 类 ， 不 过 类 
别 之 间 存 在 顺序 关系 ， 而 非 数 量 关系 。 一 个 很 典型 的 例子 是 近视 程度 〈 不 近视 、 轻 微 近 视 、 严 
重 近 视 ) 则 可 被 看 作 有 序 型 变量 ， 类 别 之 间 的 程度 递增 存在 顺序 ， 而 有 具体 的 数量 关系 则 难以 衡 
量 。 最 后 的 连续 型 变量 则 可 以 呈现 为 某 个 范围 内 的 取 值 , 同时 存在 顺序 和 数量 上 的 区 别 , 比如 : 
年 龄 。 其 中 名 义 型 变量 和 有 序 型 变量 在 R 中 被 称 为 因子 。 


7.3.1 因子 的 创建 


在 R 中 , 我 们 一 般 使 用 factor() 函 数 创建 因子 。 说 是 “创建 ”因子 , 但 实际 上 因子 是 “编码 ” 
(encode) 而 来 的 。factor() 函 数 本 质 上 是 将 一 个 向 量 重新 编码 成 一 个 因子 ， 因 此 可 以 把 因子 看 成 
一 个 包含 了 更 多 信息 的 向 量 。 此 处 的 更 多 信息 ， 指 的 是 问 量 中 不 同 值 的 分 类 ， 一般 称 之 为 “水 
平 ”(level)。 因 此 ， 在 创建 因子 之 前 ， 我 们 一 般 需 要 先 创 建 一 个 向 量 。 


> SSRmolae < GTBU MoH Vo SET 
> (sf <- factor (ssample)) 

[il] BY SH CO SH 

Levels: BJ CQ SH 

> nsample < CcC(2,3,3,5) 

> (nf <- factor (nsample)) 

中 23 

Levels: 2 3 5 


上 述 代码 先 创 建 了 向 量 ， 而 后 将 其 转化 成 了 因子 。 仔 细 观 察 ， 可 以 发 现 不 论 是 数值 型 的 向 量 还 
是 字符 串 型 的 向 量 , 转化 为 因子 后 , 都 会 有 相应 的 “水 平 ” 信息 , 即 “Levels” 所 在 行 , 如 (2,3,5) 和 
(BJ,CQ,SH)。 这 些 水 平 信息 代表 的 就 是 这 个 向 量 中 不 同 的 取 值 分 类 ， 可 以 理解 为 不 重复 的 取 值 
种 类 。 


为 了 帮助 读者 深化 理解 ， 下 面 使 用 str() 函 数 查 看 因子 的 内 部 结构 : 


> Strint) ! 

Faetoe w/ 3 levels "or sn 1 223 
> unclass (nf) 

[ti] 2 23 

attr(,"levels") 

[| Ye on SS 

> St(SE) 

Factor w/ 3 levels YRyJ", "CO", "SH"; 1 3 2 3 
> unclass (sf) 

IT 2 3 

attr(,"levels") 

[TI TBJn TOO nmSHY 
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此 处 nf 因子 的 核心 内 容 不 是 向 量 (2,3,3,5) 而 是 转化 后 的 (12,2,3), 其 内 部 关联 为 1= "2",2 = "3"， 
3 = "5"; 相应 的 sf 因子 的 核心 也 被 转化 成 了 (13,2,3), 内 部 关联 为 1 = "BJ",2 = "CQ",3 = "SH"。 
这 意味 着 因子 对 水 平 的 相对 分 布 关 注 更 其 于 对 水 平 本 身 取 值 的 关注 。 并 且 ， 水 平 本 身 的 取 值 也 
都 被 转换 成 了 字符 ， 例 如 数值 2 变 成 了 "2"。 另 外 ， 上 述 因 子 都 被 默认 当 作 名 义 型 变量 处 理 了 ， 
但 有 时 变量 之 间 存 在 明确 的 顺序 ， 此 时 则 希望 创建 的 因子 被 当 作 有 序 型 变量 处 理 。 比 如 说 我 们 
希望 创建 一 个 因子 assessment 来 表示 托福 考试 中 成 绩 的 四 个 分 类 , 由 高 到 低 依次 为 : good、fair、 
limited 和 weak。 

> assessment <- cl{"weak","good", "limited","fair") 

> assessmentl1 <- factor(assessment) 

> assessment1 

[1] weak good limited fair 

Levels: fair good limited weak 


> str(assessment1) 
Factor wd Levels fale ny Vgood ea 2 I 


然而 ， 对 于 字符 型 向 量 ， 因 子 的 水 平 默认 按照 字母 表 顺 序 创建 ， 而 数值 型 向 量 ， 因 子 的 水 
平 则 仍然 按照 数值 从 小 到 大 的 顺序 创建 。 所 以 此 处 创建 的 因子 内 在 的 关联 为 1 = "fair"，2 = 
"good"，3 = "limited"，4 = "weak"。 可 这 并 不 是 我 们 所 期 望 的 。 如 果 想 表示 为 有 序 型 变量 ， 那 
么 在 创建 因子 时 ,factor() 函 数 中 的 order 参数 需要 被 设置 为 TRUE, 然后 通过 给 参数 levels 赋值 ， 
来 指定 水 平 的 排序 。 
> assessmentl <- factor(assessment order=TRUE, 
+ levels=c("good", "fair","limited", "weak")) 
> assessmentl 
[1] weak good limited fair 
Levels: good < fair < limited < weak 


> str(assessment1) 
Ord.factor w/ 4 levels “good"<"fair"<., .4132 


7.3.2 ”因子 中 插入 水 平 
创建 因子 时 ， 我 们 可 以 人 为 地 插入 一 些 新 的 水 平 。 


> sample <= CL27E5, YL0) 

> fsample <- factor(sample, levels=c(7,10,12,15,100)) 
> fsample 

[EE 

Levels: 7 10 12 15 100 

> length (fsample) 

[11 4 


注意 ， 因 子 的 长 度 指 的 是 创建 因子 的 向 量 的 长 度 ， 即 数据 的 长 度 ， 而 非 水 平 的 长 度 。 如 果 
想 向 因子 中 添加 数值 ， 只 有 当 新 添加 的 值 是 因子 的 水 平时 ， 这 个 值 才能 添加 进去 。 换 言 之 ， 如 
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果 我 们 向 因子 中 添加 不 存在 的 水 平 值 ， 那 么 就 是 非法 操作 。 例 如 


> fsample[5]<-100 

>, fgamplie 

[EN 2 E00 
Develse' bh? Lo Tou too 


> fsample[6]<-99 

Warning message: 

in [< Factor (Emo 6, values = 99) » 
invalid factor level, NA generated 


7.3.3 ”因子 和 常用 函数 


本 小 节 将 介绍 三 个 常 与 因子 配合 使 用 的 函数 ， 熟 练 地 掌握 它们 的 使 用 将 给 我 们 的 编程 实践 
带 来 很 大 便利 。 

e tapply() 函 数 

与 列表 和 数据 框 类 似 ， 因 子 中 也 可 以 使 用 apply 系列 函数 中 的 成 员 tapplyO) 函 数 。 该 函 
数 有 三 个 参数 : X、INDEX 和 FUN。 其 中 , X 代表 原子 型 的 对 象 , 比如 向 量 , 注意 数据 框 不 行 ; 
INDEX 代表 因子 或 因子 列表 ， 并 且 每 个 因子 需要 和 X 具有 相同 的 长 度 ， 如 果 INDEX 中 有 不 是 
因子 的 元 素 ， 那 么 需要 使 用 as.factor() 函 数 将 其 强制 转化 成 因子 ; 最 后 ，FUN 代表 的 是 我 们 希望 
应 用 的 函数 。 


函数 tapply0 的 作用 是 将 X 根据 因子 水 平 进行 分 组 ， 然 后 在 每 组 数据 上 应 用 函数 FUN。 需 
要 注意 的 是 ， 当 INDEX 是 因子 列表 的 时 候 ， 一 个 因子 水 平 指 的 是 一 组 因子 水 平 的 组 合 。 举 个 
例子 ， 在 一 项 实验 中 ， 我 们 希望 知道 分 别 食用 饲料 A、B、C 的 绵羊 的 平均 重量 ， 则 有 : 
> wt <- cc(46,39,35,42,43,43) 
> group <-— CAn "Br wen NAY Br cn) " 
> tapply(wt,as.factorl(lgroup),mean) 
A BC 
44 41 39 ， 
上 述 代码 中 , 因子 group 具有 三 个 水 平 , 即 "A"、"B" 和 "C"。tapply0 就 根据 因子 group 中 的 水 平 ， 
将 wt 向 量 中 的 数据 分 为 了 三 组 ,再 对 每 组 求 一 个 平均 值 ,可 以 验证 ,"A" 水 平 在 索引 ( 即 INDEX) 
中 的 位 置 是 1 和 4， 对 应 wt 向 量 中 的 46 和 42， 故 平均 值 为 44;"B" 水 平 在 索引 中 的 位 置 是 2 
和 5， 对 应 wt 中 的 39 和 43， 所 以 平均 值 为 41; 同 理 ， 水 平 "C" 亦 是 如 此 。 

当 索 引 中 包含 多 个 因子 〈 即 因子 列表 ) 的 时 候 如 何 分 组 呢 ? 之 前 其 实 已 经 提 过 ， 不 过 基于 
上 面 的 例子 ， 读 者 应 该 更 容易 理解 。 仍 然 用 绵羊 的 例子 ， 除 了 “饲料 ”这 个 因子 外 ， 现 在 另外 
添加 一 个 因子 “性 别 ”。 那 么 在 使 用 tapply0 函 数 时 ， 原 始 数据 会 被 分 为 六 组 ， 即 因子 “饲料 ” 
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的 所 有 水 平和 因子 “性 别 ” 的 所 有 水 平 的 所 有 组 合 ; 


食用 A 饲料 的 公 绵羊 
食用 A 饲料 的 母 绵羊 
食用 B 饲料 的 公 绵 羊 
食用 B 饲料 的 母 绵 羊 
食用 C 饲料 的 公 绵 羊 
食用 C 饲料 的 母 绵羊 

最 后 ， 对 于 所 有 六 个 分 组 ，tapply() 函 数 同样 会 在 每 一 组 数据 上 使 用 函数 FUN， 此 处 即 指 
mean(0) 函 数 。 鉴 于 上 例 中 的 数据 量 太 小 ， 我 们 增加 一 些 数据 ， 示 例如 下 。 





函数 split0 的 主要 作用 就 是 形成 分 组 。 此 函数 主要 涉及 两 个 参数 ， 待 处 理 的 数据 ( 即 x)， 
因子 或 因子 列表 ( 即 人 ,此 处 的 待 处 理 数据 可 以 是 向 量 或 数据 框 , 而 因子 和 因子 列表 则 与 tapply0 
则 有 : 
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E35 43 

易 见 ， 返 回 列表 的 每 一 个 元 素 名 就 是 两 个 水 平 的 组 合 ， 比 如 "A.F" 就 是 “饲料 ”因子 中 的 水 
平 "A" 结 合 “ 性 别 ” 因 子 中 的 水 平 "F" 而 成 。 可 以 通过 “$” 符 号 调用 列表 的 每 一 个 元 素 。 细 心 的 
读者 可 以 发 现 此 处 列表 因子 中 我 们 并 没有 使 用 as.factor(0) 函 数 将 向 量 转化 为 因子 ， 其 实 tapply0 
函数 中 的 因子 列表 也 可 以 省 略 as.factor(), 这 是 因为 tapply0 函 数 和 split() 函 数 都 会 自动 将 其 转化 
为 因子 。 所 以 在 使 用 时 可 以 省 略 as.factor() 函 数 。 

e by() 函 数 

函数 by0 其 实 是 tapply0 函 数 的 变种 ， 也 是 用 来 对 不 同 的 分 组 应 用 不 同 函数 的 方法 。 不 过 其 
和 tapply() 函 数 最 大 的 不 同 在 于 适用 的 数据 对 象 .通过 前 面 的 章节 ,读者 朋友 应 该 发 现 了 ,tapply() 
函数 的 第 一 个 参数 必须 是 向 量 等 原子 型 数据 结构 ; 而 by() 函 数 的 应 用 对 象 则 更 为 广泛 ， 可 以 是 
数据 框 和 和 矩 阵 。 这 一 点 十 分 重要 , 因为 有 时 我 们 需要 对 数据 框 等 更 为 复杂 的 数据 结构 进行 分 组 ， 
所 应 用 的 函数 需要 的 参数 也 不 仅仅 限于 向 量 。 彼 时 , 只 能 处 理 向 量 的 tapply0 函 数 就 略 显 不 足 了 ，。 


下 列 代码 以 在 介绍 数据 框 时 曾经 使 用 过 的 记录 男女 不 同 近视 程度 人 数 的 数据 框 myopia 为 
例 ， 使 用 by0 函 数 根据 近视 程度 分 组 ， 并 求 得 每 组 的 人 数 。 


> myopia 
degree male female 
也 low 124 108 
2 middle 88 56 
3 ,high = 200 221 
> by(myopia,myopia$degree,function(frame) frame[,;2]+frame[,3]) 
myopia$degree: high 
[1] 421 


Si rae i i en in is en he ee ed st ee 0 a md aid ny hy cm ele i pnp etd Ld a eet oe ee aes jn iad, i dD let 





FER32 


myopias$sdegree; middle 
[bid , 


上 例 中 by0 函 数 的 第 三 个 参数 ， 即 对 分 组 应 用 的 函数 是 由 我 们 自己 手动 创建 的 。 它 实现 了 
相当 简单 的 功能 ， 即 将 每 个 分 组 的 第 二 列 和 第 三 列 相 加 。 相 应 地 ， 函 数 tapply() 却 没 法 对 数据 框 
进行 这 种 操作 。 这 也 正 是 by() 函 数 优 于 tapply0 函 数 的 地 方 。 


7.4 表 


本 节 介 绍 另 一 种 十 分 重要 的 结构 型 数据 类 型 一 一 表 。 大 家 对 “ 表 ” 这 个 概念 应 该 并 不 陌生 。 
之 所 以 这 么 说 ， 是 因为 R 中 的 表 其 实 和 和 矩阵、 数据 框 都 十 分 相似 。 因 此 ， 无 论 是 在 表 元 素 的 访 


wwaibbt.com DODODODDOOD 
140 


第 7 章 高 级 数据 续 物 __. 


问 方式 还 是 在 对 表 进行 更 复杂 的 操作 等 方面 ， 我 们 都 可 以 类 比 和 矩阵 和 数据 框 。 


7.4.1 表 的 创建 


在 R 中 创建 表 使 用 的 函数 是 table0)， 其 原理 是 使 用 交叉 分 类 因子 创建 一 个 列 联 表 
(contingency table)， 用 以 记录 每 一 个 因子 水 平 组 合 的 频数 。 此 处 的 因子 水 平 组 合 本 质 上 和 前 面 
我 们 在 介绍 tapply0 函 数 和 split0) 函 数 时 涉及 的 因子 水 平 组 合 一 样 。 因 此 ，table() 函 数 最 重要 的 
一 个 参数 就 是 创建 表 所 需要 的 因子 或 因子 列表 .仍然 采用 7.3 节 中 绵羊 的 例子 来 进行 演示 说 明 。 


> diet | 

[1] 于 为 昌 npB" Bh bi WA wp 0 名 攻 村 ub nen A BY yo 
> gender 

{3 中 mnMT 人 NM WM™ nM"™ Mn MT Wb 8h eS :Wd Wd hd Ed TFT MW 
> wt 


[1] 46 39 35 42 43 43 42 44 36 40 39 38 
> table(list (diet,gender)) 
过 
| 
有 2 
BW 
CE 


上 例 中 使 用 的 因子 列表 包含 了 两 个 因子 ， 共 六 种 水 平 组 合 。 表 格 中 的 数据 是 对 应 行列 水 平 
组 合 的 频数 ， 每 种 组 合 都 有 两 个 数据 。 因 为 上 述 表格 记录 的 是 相应 水 平 组 合 的 频数 ， 所 以 我 们 
更 为 关注 因子 ， 而 有 具体 的 数据 则 被 色 略 了 。 

函数 table() 的 第 一 个 参数 除了 因子 或 因子 列表 外 ， 还 常用 的 数据 类 型 是 数据 框 。 假 设 有 一 
份 记录 110 个 病人 基本 信息 的 数据 ,包括 :年 龄 (Age)、 性 别 (Gender)、 是 否 有 糖尿 病 (Diabetes)、 
是 否 吸 烟 (Ever_smoked)、 是 否 有 高 血压 (Hypertension) 等 信息 。 数 据 中 的 一 行 代表 一 个 病人 
的 基本 信息 。 在 这 个 例子 中 ,，“1” 人 代表“ 是”“0” 代 表 “ 否 ” 以 此 记录 了 受 访 病人 的 身体 情 
况 。 

下 面 的 代码 首先 使 用 read.csv() 函 数 读 入 数据 文件 并 存储 到 变量 artery 中 。 通 常 csv 文件 读 
入 后 会 存储 成 数据 框 , 我们 可 以 直接 查看 文件 信息 如 下 (限于 篇 幅 ， 此 处 仅 列 出 了 前 10 行 的 信 
局 


> artery <- read.csv("C:/data/graft arteries.csv") 


> artery 
Age Gender Diabetes Ever smoked PVD CVD Hypertension RAcalc 
1 74 0 0 0 
受 64 1 0 Qe Qui EL 0 
3 44 出 1 NS > 1 0 
4 74 上 0 Qe ~“@: 7 0 0 
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apache 


5 68 0 3 1 0 
6 66 0 1 由 0 0 
区 48 1 rt WO 0 由 0 
8 pl 由 1 Ont 0 1 
9 12 0 ED 0 0 0 
0 $5 中 0 lO 0 0 0 


然后 ， 使 用 此 数据 框 中 的 “糖尿 病 ”(Diabetes) 和 “高 血压 ”(Hypertension ) 两 个 因子 来 
创建 表 ， 则 有 : 
> table(liist(artery$Diabetes,artery$Hypertension)) 
10 UL 
0 41 42 
1 16 11 
从 中 可 知 ， 没 有 糖尿 病 且 没有 高 血压 的 病人 数量 为 41， 同 时 患 有 糖尿 病 和 高 血压 的 病人 数 
量 为 11 等 信息 。 因 为 创建 表 时 使 用 了 两 个 因子 ， 所 以 上 述 频 数 表 是 二 维 的 。 当 然 ， 我 们 也 可 以 
得 到 一 维 的 表 。 


> table(artery$Diabetes) 








0 
83 27 

我 们 还 可 以 使 用 “糖尿 病 ”“ 高 血压 ”和 “吸烟 ”这 三 个 因子 创建 三 维 的 表 ， 为 了 便于 查 
看 ， 我 们 为 每 个 因子 指定 了 名 称 。 


> table(D=artery$Diabetes,H=artery$Hypertension,S=artery$Ever smoked) 
SS 


0 1 
0 30 20 
1 13 10 
此 处 给 出 了 “吸烟 ”因子 水 平分 别 为 “0” 和 “1” 时 , “糖尿病 ”和 “高 血压 ”因子 水 平 组 
合 的 频数 。 理 论 上 创建 的 表 的 维度 还 可 以 更 高 ， 但 是 太 高 维度 不 便于 直接 查看 。 























wwaibbt.com DOOO000O0 
142 


中 7 着 高 级 汶 据 入 站 _ 


7.4.2 ” 表 中 元 素 的 访问 


类 似 于 数据 框 ， 表 也 具有 一 些 矩 阵 和 数组 的 特性 。 因 此 ， 表 中 频数 的 访问 同样 可 以 采用 拢 
阵 符 号 。 我 们 既 能 访问 单个 元 素 ， 也 可 以 访问 表 中 的 某 行 或 某 列 。 仍 然 使 用 上 述 医院 的 例子 ， 
则 有 : 


> dh tab <- table(list(D=arterySDiabetes,H-artery Hypertension)) 
> ch, tab 

ial 
D Du 

日 全 

站 8 
> dh tap [dual 
人 让 和 
> dh ab Trl, 
QM 
41 42 
> am kagl 2 
中 
ead Gy 


因此 ， 我 们 可 以 对 表 中 的 频数 进行 修改 ， 例 如 : 


> dh tabte,2lxd 

a) 

> dh tabll,l*2 

ss 

82 84 

> dh taoy3 
H 

D 0 上 
0 13,5666671 14.000000 
6 


7.4.3” 表 中 变量 的 边际 值 

表 中 变量 的 边际 值 指 的 是 ， 当 某 一 个 特定 变量 的 取 值 不 变 时 ， 其 他 所 有 变量 求 和 得 到 的 结 
果 。 以 7.4.2 节 中 的 dh_tab 表 为 例 ， 变 量 D〈 即 糖尿 病 ) 的 边际 值 有 两 个 ， 分 别 是 D= 0 时 《 即 
无 糖尿 病 )， 变 量 了 〈 即 高 血压 ) 所 有 取 值 的 和 ;， 以 及 D = 1 时 〈 即 有 糖尿 病 )， 变 量 百 所 有 取 
值 的 和 。 故 变量 D 的 边际 值 为 41+42 =83， 以 及 16+11=27。 有 两 种 方式 获取 表 中 变量 的 边 
际 值 。 


第 一 种 方式 我 们 已 经 非常 熟悉 了 ， 即 使 用 applyO 函 数 分 别 对 行列 〈 即 两 个 变量 ) 求 和 。 
> db tab ， 
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第 二 种 方式 一 次 性 获得 了 两 个 变量 的 边际 值 ， 再 与 原 表 登 加 在 了 一 起 ， 非 常 便于 观察 。 不 
过 需要 注意 的 是 上 例 中 给 出 的 表格 都 是 二 维 的 。 当 扩展 到 三 维 甚至 更 高 维度 的 表格 时 ， 这 两 种 
方法 仍然 适用 吗 ? 来 看 下 面 的 示例 代码 。 


nt ph 
"hs 
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57 53 I nh ， 0 
可 以 发 现 addmargins() 函 数 仍 然 适 用 ,通过 上 述 结果 我 们 仍然 可 以 识别 出 三 个 变量 各 自 对 应 
的 边际 值 ， 只 不 过 相对 而 言 观察 比较 麻烦 。 相 应 地 ， 第 一 种 方式 也 能 适用 ， 只 不 过 在 函数 的 参 
数 上 会 有 些许 变化 。 因 为 表 的 维度 超出 了 二 维 的 层面 ， 所 以 此 处 使 用 维度 名 代替 单纯 的 数值 1 
或 2。 当 然 ， 在 创建 表 时 最 好 指定 相应 的 维度 名 称 。 





由 此 观 之 ， 当 表 的 维度 较 高 时 ， 使 用 apply0) 函 数 求 边际 值 会 更 为 简明 。 此 外 ， 本 节 所 讨论 
的 列 联 表 非 党 有用， 本 书后 续 章节 还 会 针对 它 在 统计 分 析 中 的 应 用 做 更 深入 的 讨论 。 
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统计 推断 是 以 带 有 随机 性 的 样本 观测 数据 为 基础 ， 结 合 具 体 的 问题 条 件 和 假定 ， 而 对 未 知 
事物 做 出 的 ， 以 概率 形式 表述 的 推断 。 它 是 数理 统计 的 主要 任务 。 统 计 推 断 的 基本 问题 可 以 分 
为 两 大 类 : 一 类 是 参数 估计 ;， 另 一 类 是 假设 检验 。 在 参数 估计 部 分 ， 本 章 将 着 重 关 注 点 估计 和 
区 间 估 计 这 两 类 问题 。 


8.1 参数 估计 


如 果 想 知道 某所 中 学 高 三 年 级 全 体 男 生 的 平均 身高 ， 其 实 只 要 测定 他 们 每 个 人 的 身高 然后 
再 取 均 值 即 可 。 但 是 若 想 知 道中 国 成 年 男性 的 平均 身高 似乎 就 不 那么 简单 了 ， 因 为 这 个 研究 的 
对 象 群体 实在 过 于 庞大 ， 要 想 获得 全 体 中 国 成 年 男性 的 身高 数据 显然 有 点 不 切实 际 。 这 时 一 种 
可 以 想到 的 办 法 就 是 对 这 个 庞大 的 总 体 进行 采样 ， 然 后 根据 样本 参数 来 推断 总 体 参数 ， 于 是 便 
引出 了 参数 估计 (Parameter Estimation) 的 概念 。 参 数 估计 就 是 用 样本 统计 量 去 估计 总 体 参 数 
的 方法 。 比 如 ， 可 以 用 样本 均值 来 估计 总 体 均 值 ， 用 样本 方差 来 估计 总 体 方差 。 如 果 把 总 体 参 
数 ( 均 值 、 方 差 等 ) 笼统 地 用 一 个 符号 6 来 表示 ， 而 用 于 估计 总 体 参数 的 统计 量 用 6 来 表示 ， 那 
么 参数 估计 也 就 是 用 6 来 估计 6 的 过 程 ， 其 中 6 也 被 称 为 估计 量 〈Estimator)， 而 根据 具体 样本 计 
算得 出 的 估计 量 数值 就 是 估计 值 (Estimated Value )。 


8.1.1 参数 估计 的 基本 原理 

点 估计 (Point Estimate)〉 就 是 用 样本 统计 量 6 的 菜 个 取 值 直接 作为 总 体 参数 9 的 估计 值 。 比 
如 ， 可 以 用 样本 均值 直接 作为 总 体 均值 4 的 估计 值 ， 用 样本 比例 p 直 接 作为 总 体 比 例 的 估计 值 
等 。 这 种 方式 的 点 估计 也 被 称 为 矩 估 计 ， 它 的 基本 思路 就 是 用 样本 和 矩 估 计 总 体 矩 ， 用 样本 矩 的 
相应 函数 来 估计 总 体 矩 的 函数 。 由 大 数 定理 可 知 ， 如 果 总 体 X 的 上 阶 矩 存在 ， 则 样本 的 大 阶 矩 以 
概率 收敛 到 总 体 的 k 阶 矩 , 样本 和 矩 的 连续 函数 收敛 到 总 体 矩 的 连续 函数 , 这 就 启发 我 们 可 以 用 样 
本 矩 作为 总 体 矩 的 估计 量 ， 这 种 用 相应 的 样本 矩 去 估计 总 体 矩 的 估计 方法 就 被 称 为 矩 估 计 法 ， 
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这 种 方法 最 初 是 由 英国 统计 学 家 卡尔 "皮尔 逊 (Karl Pearson) 提出 的 。 


来 看 一 个 例子 。2014 年 10 月 28 日 ， 为 了 纪念 美国 实验 医学 家 、 病 毒 学 家 乔 纳 斯 。 爱 德 
华 。 索 尔 克 (Jonas Edward Salk) 诞辰 100 周年 ; 谷歌 特别 在 其 主页 上 刊 出 了 一 幅 如 图 8-1 所 示 
的 纪念 画 。 二 战 以 后 ， 由 于 缺乏 有 效 的 防 控 手 段 ， 状 化 灰质 炎 逐 渐 成 为 美国 公共 健康 的 最 大 威 
胁 之 一 。 其 中 , 1952 年 的 大 流行 是 美国 历史 上 最 严重 的 爆发 。 那 年 报道 的 病例 有 58000 人 ,3145 
人 死亡 ， 另 有 21269 人 致 残 ， 且 多 数 受害 者 是 儿童 。 直 到 索 尔 克 研制 出 首 例 安全 有 效 的 “次 髓 
灰质 炎 疫 苗 ”， 曾 经 让 人 闻 之 色 变 的 消 艇 灰质 炎 才 开始 得 到 有 效 的 控制 。 











图 8-] 索 尔 克 纪 念 画 


索 尔 克 在 验证 他 发 明 的 疫苗 效果 时 ， 设 计 了 一 个 随机 双 盲 对 照 实验 ， 实 验 结果 是 在 全 部 
200745 名 接种 了 疫苗 的 儿童 中 ， 最 后 患 上 痊 髓 灰质 炎 的 一 共有 57 例 。 那 么 采用 点 估计 的 办 法 ， 
我 们 就 可 以 推断 该 疫苗 的 整体 失效 率 大 约 为 : 














5 
PD = 700745 = 0.0284% 
或 者 在 R 中 执行 下 面 的 代码 来 计算 结果 。 
> 57/200745 
[1] 0.0002839423 
虽然 在 重复 抽样 下 ， 点 估计 的 均值 可 以 期 望 等 于 总 体 的 均值 ， 但 由 于 样本 是 随机 抽取 的 ， 
由 某 一 个 具体 样本 算出 的 估计 值 可 能 并 不 等 同 于 总 体 均值 。 在 用 和 矩 估 计 法 对 总 体 参数 进行 估计 
时 ， 还 应 该 给 出 点 估计 值 与 总 体 参 数 真实 值 间 的 接近 程度 。 通 常 我 们 会 围绕 点 估计 值 来 构造 总 
体 参 数 的 一 个 区 间 ， 并 用 这 个 区 间 来 度量 真实 值 与 估计 值 之 间 的 接近 程度 ， 这 就 是 区 间 估 计 。 
区 间 估 计 (Interval Estimate〉 是 在 点 估计 的 基础 上 ， 给 出 总 体 参 数 估计 的 一 个 区 间 范 围 ， 
而 这 个 区 间 通 常 是 由 样本 统计 量 加 减 估计 误差 得 到 的 。 与 点 估计 不 同 ， 进 行 区 间 估 计时 ， 根 据 
样本 统计 量 的 抽样 分 布 ， 可 以 对 样本 统计 量 与 总 体 参 数 的 接近 程度 给 出 一 个 概率 度量 。 





wwaibbt.com DOOO0O0D 
147 


RR 语言 实战 一 机 器 学 习 与 数据 分 析 


例如 在 以 样本 均值 估计 总 体 均值 的 过 程 中 ， 由 样本 均值 的 抽样 分 布 可 知 ， 在 重复 抽样 或 无 
限 总 体 抽样 的 情况 下 ， 样 本 均值 的 数学 期 望 等 于 总 体 均值 ， 即 E(xX) = jy。 回忆 一 下 4.6 节 中 给 
出 的 一 些 结论 还 可 以 知道 ， 样 本 均值 的 标准 差 等 于 oz = o/Vn， 其 中 o 是 总 体 的 标准 差 ，n 是 样 
本 容量 。 根 据 中 央 极 限定 理 可 知 样本 均值 的 分 布 服从 正 态 分 布 。 这 就 意味 着 ， 样 本 均值 无 次 在 总 
体 均 值 j 的 两 侧 备 一 个 抽样 标准 差 范围 内 的 概率 为 0.6827; 落 在 两 个 抽样 标准 差 范围 内 的 概率 为 
0.9545; 落 在 三 个 抽样 标准 差 范围 内 的 概率 是 0.9973…… 下 面 是 R 中 用 于 计算 的 代码 。 
> pnorm(1)-pnorm(=1) 
[1] .06826895 
> pnorm(2)-pnorm!(-2) 
[1] 0.9544997 


> pnorm(3) -pnorm!{(-3) 
[1] 0.9973002 


事实 上 , 我 们 完全 可 以 求 出 样本 均值 落 在 总 体 均 值 两 侧 任 何 一 个 抽样 标准 差 范 围 内 的 概率 。 
但 实际 估计 时 ， 情 况 却 是 相反 的 。 我 们 所 知道 的 仅仅 是 样本 均值 X*， 而 总 体 均 值 y 未 知 ， 也 正 是 
需要 估计 的 。 由 于 x 与 4 之 间 的 距离 是 对 称 的 , 如 果 某 个 样本 均值 落 在 /的 两 个 标准 差 范围 之 内 ， 
反 过 来 4 也 就 被 包括 在 以 x 为 中 心 左右 两 个 标准 差 的 范围 之 内 。 因 此 ， 大 约 有 95% 的 样本 均值 会 
落 在 /的 两 个 标准 差 范围 内 。 或 者 说 ， 约 有 95% 的 样本 均值 所 构造 的 两 个 标准 差 区 间 会 包括 /。 
图 8-2 给 出 了 区 间 估 计 的 示意 图 。 





H—2.580¢ J —1.960: MH— 1.650x a H+1650: M+1.960r J +2.5805 
: : : 90% 的 样本 : 
-一 一 一 


95% 的 样本 


99% 的 样本 : 
Pe 





图 8-2 区 间 估 计 示 意图 


在 区 间 估 计 中 ， 由 样本 统计 量 所 构造 的 总 体 参数 之 估计 区 间 被 称 为 置信 区 间 (Confidence 
Interval), 而 且 如 果 将 构造 置信 区 间 的 步骤 重复 多 次 , 置信 区 间 中 所 包含 的 总 体 参 数 真 实 值 的 次 
数 之 占 比 被 称 为 置信 水 平 ， 或 置信 度 。 在 构造 置信 区 间 时 ， 可 以 使 用 希望 的 任意 值 作 为 置信 水 
平 。 常 用 的 置信 水 平和 正 态 分 布 曲线 下 右 侧 面积 为 a/2 时 的 临界 值 如 表 8-1 所 示 。 
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下 


表 8-1 常用 置信 水 平 临 界 值 











8.1.2 单 总 体 参数 区 间 估 计 

1. 总 体 比例 的 区 间 估 计 

比例 问题 可 以 被 看 作 一 项 满足 二 项 分 布 的 实验 。 例 如 在 索 尔 克 的 随机 双 盲 对 照 实 验 中 ， 实 
验 结果 是 在 全 部 200745 名 接种 了 疫苗 的 儿童 中 ,最 后 患 上 兰 血 灰质 炎 的 一 共有 57 例 。 这 就 相当 
于 做 了 200745 次 独立 的 伯 努 利 实验 ， 而 且 每 次 实验 的 结果 必 为 两 种 可 能 之 一 ， 要 么 是 患 病 ， 要 
么 是 不 患 病 。 而 且 本 书 第 4 章 中 也 讲 过 ， 服 从 二 项 分 布 的 随机 变量 X~B(n,p) 以 np 为 期 望 ， 以 
np(1 一 p) 为 方差 。 可 以 令 样 本 比例 =X/n 作 为 总 体 比例 bp 的 估计 值 ， 而 且 可 以 得 知 : 

1 1 
E(D) = 元 EOO) 二 

同时 还 有 : 


1 1 业 二 :用 l=sP 
var (DP) = T2707(X) 二 ne x np(1 = D) = Ey), se(P) 二 es 


由 此 便 已 经 具备 了 进行 区 间 估 计 的 必 备 素材 。 
第 一 种 进行 区 间 估 计 的 方法 被 称 为 Wald 方法 , 它 是 一 种 近似 方法 。 根据 中 央 极 限定 理 ， 当 
?足够 大 时 ， 将 会 有 : 


友人 一 肖 ) 

Pp~N(p, | 
8.1.1 节 中 我 们 也 给 出 了 标准 正 态 分 布 中 ，95% 置 信 水 平 下 的 临界 值 一 一 1.96， 即 : 
一 把 


Vp(1—p)/n 


s6 P= pap) 和 
(ea W196 2 PD) | ~ 095 


Wald 方法 对 上 述 结 果 做 了 进一步 的 近似 ， 即 把 根 号 下 的 p 用 来 代替 ， 于 是 总 体 比例 p 在 95% 置 
信 水 平 下 的 置信 区 间 为 : 


pr(- 1.96 < < 196) ~ 095 
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i 
[ = 196 Le 六 ,+ 196 名 和 D) | 
n n 


以 索 尔 克 的 随机 双 盲 对 照 实验 为 例 ， 可 以 在 R 中 使 用 下 面 的 代码 来 算得 总 体 比 例 估计 的 置 
信 区 间 。 从 输出 结果 中 可 知 ， 保 留 小 数 点 后 6 位 有 效 数字 的 置信 区 间 为 (0.000210, 0.000358)。 
> 00 人 
> (pahat <= 57/n) 
[1] 0.0002839423 
> prthiat ECA.9600 1 96) «sqrt(SBahae . (1 = pp hae)y /ny 
[1] 0.0002102390 .050003576456 

Wald 方法 的 基本 原理 是 利用 正 态 分 布 来 对 二 项 分 布 进行 近似 , 与 之 相对 的 另外 一 种 方法 是 
Clopper-Pearson 方法 。 该 方法 完全 是 基于 二 项 分 布 的 ,所 以 它 是 一 种 更 加 确切 的 区 间 估 计 方 法 。 
在 R 中 可 以 使 用 binom.test() 函 数 来 执行 Clopper-Pearson 方法 ， 下 面 给 出 示例 代码 。 


> binom.test (57;200745) 
Exact binomial test 


Gata: 57 and 200745 
number of successes = 57, number of trials = 200745, p-value < 
2.2e-16 
alternative hypothesis; true probability of success is not equal to 0.5 
95 percent confidence interval: 
0.0002150620 0.0003678648 
sample estimates: 
probability of success 
0.0002839423 


从 以 上 输出 中 可 以 得 到 ， 保 留 小 数 点 后 6 位 有 效 数字 的 95% 和 置信 水 平 下 之 区 间 估 计 结 果 为 
(0.000215, 0.000369)。 这 一 数值 其 实 已 经 与 Wald 方法 所 得 之 结果 非常 相近 了 。 
总 体 均值 的 区 间 估 计 
在 对 总 体 均 值 进行 区 间 估 计时 , 需要 分 几 种 情况 ,首先 , 若 考 虑 的 总 体 是 正 态 分布 且 方差 o? 
己 知 ， 或 总 体 不 满足 正 态 分 布 但 为 大 样本 (n>30) 时 ， 样 本 均值 x 的 抽样 分 布 均 为 正 态 分 布 ， 
数学 期 望 为 总 体 均值 xk， 方差 为 o?/n。 而 样本 均值 经 过 标准 化 以 后 的 随机 变量 服从 标准 正 态 分 
布 ， 即 : 


Zz =~N, 二 


由 此 可 知 总 体 均 值 w 在 1 一 a 置信 水 平 下 的 置信 区 间 为 : 
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人 人 
(8 -z+ 
其 中 % 是 显著 水 平 ， 它 是 总 体 均值 不 包含 在 置信 区 间 内 的 概率 ; za/ 是 标准 正 态 分 布 曲线 与 横 轴 
围 成 的 面积 等 于 /2 时 的 z 值 。 


例如 现在 有 一 家 生产 袋 装 食品 的 食品 三。 按 规定 每 袋 食品 的 质量 应 为 100 克 。 为 对 产品 质 
量 进行 监测 ， 质 检 部 门 从 当天 生产 的 一 批 食 品 中 随机 抽取 了 25 袋 , 并 测 得 每 袋 的 质量 数据 如 表 
8-2 所 示 。 已 知 产品 质量 的 分 布 服从 正 态 分 布 ， 且 总 体 标准 差 为 10 克 。 请 计算 该 天 每 袋 食品 平 
均 质 量 的 置信 区 间 ， 置 信 水 平 为 95%。 














表 8-2 食品 质量 抽检 数据 











由 于 R 中 并 没有 提供 方差 已 知 时 置信 区 间 的 计算 函数 ， 所 以 我 们 需要 手动 编写 一 个 函数 ， 
代码 如 下 。 
> conf.int<-function(x,n, sigma,alpha)'t{ 

options (digits=5) 

mean<-mean (x) 

c(mean-sigma*qnorm(l-alpha/2,mean=0, sd=1, 

lower.tail = TRUE)/sqrt(n), 

meantsigma*qnorm(l-alpha/2,mean=0, sd=1, 

lower.tail = TRUE)/sgrt(n)) 

} 


然后 调用 上 述 函 数 来 计算 置信 区 间 ， 代 码 如 下 。 


六 
+ T0228 LOW 5 S95.00 TOG .11D 
+ TOORON LOS LO Or OL or T0222 
+ 116a67 95540, 971-.805 1087:6: L050 
+ L9687 PhOo eB LOE5 984407 93.30) 
> 卫 <- 25 

>,alpha <- 0.05. 

> sigma <- 10 

> ,result < Contb, lnte i SO 天 alpha) 

> result 

[1] 101.44 109.28 


结果 表明 该 批 食 品 平均 质量 95% 的 置信 区 间 为 (101.44,109.28)。 
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如 果 总 体 服 从 正 态 分 布 但 c? 未 知 ， 或 总 体 并 不 服从 正 态 分 布 ， 只 要 是 在 大 样本 条 件 下 ， 我 
们 都 可 以 用 样本 方差 s? 来 代替 总 体 方差 cz?， 此 时 总 体 均值 在 1 一 a 置信 水 平 下 的 置信 区 间 为 : 





_ S 

(Fzop + 
其 中 需要 注意 的 一 点 ， 也 是 第 4 章 中 着 重 讨论 的 一 点 ， 即 如 果 设 Xi,X2,… ,Xn 是 来 自 总 体 X 的 一 
个 样本 ， 那 么 作为 总 体 方差 c? 之 无 偏 估计 的 样本 方差 公式 为 : 


二 1 > 
-a y -a “3 
i=1 i=1 


此 外 ， 考 虑 总 体 是 正 态 分 布 ， 但 方差 ?未知 且 属于 小 样本 (n < 30) 的 情况 ， 仍 须 用 样本 
方差 s? 来 蔡 代 总 体 方差 o?。 但 此 时 样本 均值 经 过 标准 化 以 后 的 随机 变量 将 服从 自由 度 为 (n 一 1) 
的 t 分 布 ， 即 : 


t= 





本 2 1) 
这 也 是 4.6 节 最 后 给 出 的 一 个 定理 。 于 是 ， 我 们 就 需要 采用 学 生 t 分 布 来 建立 总 体 均值 4 的 置信 
区 间 。 


学 生 t 分 布 ， 或 简称 分 布 ， 是 类 似 正 态 分 布 的 一 种 对 称 分 布 ， 但 它 通 常 要 比 正 态 分 布 平坦 
和 分 散 。 一 个 特定 的 t 分 布依 赖 于 被 称 为 自由 度 的 参数 。 自 由 度 越 小 ， 那 么 ! 分 布 的 图 形 就 越 平 
坦 ; 随 着 自由 度 的 增 大 ，t 分 布 也 逐渐 趋 近 于 正 态 分 布 。 下 面 的 代码 绘制 了 标准 正 态 分 布 以 及 两 
个 自由 度 不 同 的 t 分 布 ， 结 果 如 图 8-3 所 示 。 
> curve{dnorm(x), from = -5, to = 5, ylim = c(0, 0.45),; 

+ ylab ="", col = “blue") 

> par (new=TRUE) 

> QUrvel(oat (Ww L/SWOn si tO Si iim 信 二 间 呈 人 区 
十 iab = Tb = 2 CO ss Urea } 

> par (new=TRUE) 

>- curve (dt(xy 3 from = =5r to = 5; ylim=:.@(0, 0.45), 
十 ylab ="", lty = 3) 

> text, Jegend = C6("anorm Atay Watt3) 

> legend("topright", legend = text.legend, lty=c(1,2,3), 
十 col = c("blue", "red", "black")) 

这 里 谈 到 的 t 分 布 最 初 是 由 英国 化 学 家 和 统计 学 家 威廉 。 戈 塞 特 〈Willam Gosset) 于 1908 
年 首先 提出 的 ， 当 时 ， 他 还 在 爱尔兰 都 柏林 的 一 家 酿酒 厂 工作 。 酒 厂 虽然 禁止 员工 发 表 一 切 与 
酿酒 研究 有 关 的 成 果 ， 但 还 是 允许 他 在 不 提 到 酿酒 的 前 提 下 ， 以 笔名 发 表 t 分 布 的 发 现 ， 所 以 论 
文 使 用 了 “学 生 ”(Student) 这 一 笔名 。 之 后 t 检 验 以 及 相关 理论 经 由 费 希 尔 发 扬 光 大 ， 为 了 感 
谢 戈 塞 特 的 功劳 ， 费 希 尔 将 此 分 布 命名 为 学 生 t 分 布 Student's t-distribution )。 
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第 8 章 ， 统 计 推断 











图 8-3 标准 正 态 分 布 与 ! 分 布 
根据 t 分 布 建立 的 总 体 均值 4 在 1 一 a 置信 水 平 下 的 置信 区 间 为 : 
_ 大” s 
(z ES ta/2 村 tai- 局 
式 中 twjz 是 自由 度 为 n 一 1 时 ，t 分 布 中 右 侧 面积 为 a/2 的 t 值 。 


例如 现在 为 了 测定 一 块 土地 的 pH 值 ， 随 机 抽取 了 17 块 土壤 样本 ,相应 的 pH 值 检测 结果 
如 表 8-3 所 示 。 由 于 样本 容量 仅 为 17， 所 以 属于 小 样本 的 情况 ， 于 是 采用 上 述 方法 对 这 块 土地 
的 pH 值 均值 进行 区 间 估 计 。 


表 8-3 土壤 pH 值 检测 数据 














根据 已 经 给 出 的 公式 可 以 在 R 中 下 面 的 代码 来 进行 区 间 估 计 ， 其 估计 结果 我 们 用 方 框 来 进行 标 


识 。 


四 

十 Oe oe tr OB "7 LE GB td ra Dd 2) 

> mean (pH); sd (pH) 

Lil 63560676471 

[1] 0.4548755 

> mean(pH)+ qt(c{(0.025,0.975), length (pH)-1)*sd (pH) /sgqrt (length (PH) ) 


[1] 
或 者 更 简单 地 ， 可 以 直接 使 用 R 中 的 t.test() 函 数 来 计算 ， 示 例 代码 如 下 。 结 果 同 样 用 方 框 来 进 
行 标识 ， 可 见 与 前 面 得 到 的 结果 是 一 致 的 。 
> 七 .test (pH, mu=7) 
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One Sample t-test 


data: pH 

t = -2.9326, df = 16, p-value = 0.009758 
alternative hypothesis: true mean is not equal to 7 
95 percent confidence interval: 

6.910346| 

sample estimates : 

mean of x 

6.676471 


表 8-4 对 本 节 介 绍 的 关于 单 总 体 均值 的 区 间 估 计 方 法 进行 了 总 结 ， 供 有 需要 的 读者 参阅 。 
表 8-4 单 总 体 均值 的 区 间 估 计 


总 体 方差。 已 知 



































总 体 方差 o* 未 知 
ee o 5 
正 态 分 布 
小 样本 (n < 30) 雹 十 ta/z -万 
本 S 
非 正 态 分 布 大 样本 (n>30) 无 土 za/z 启 


3. 总 体 方差 的 区 间 估 计 , 
此 处 仅 讨论 正 态 总 体 方差 的 估计 问题 。 根 据 样本 方差 的 抽样 分 布 可知 ， 样 本 方差 服从 自由 
度 为 n 一 1 的 Xx? 分 布 。 所 以 , 考虑 用 x? 分 布 构 造 总 体 方差 的 置信 区 间 。 给 定 一 个 显著 水 平 a, 用 x? 
分 布 建立 总 体 方差 o? 的 置信 区 间 ， 其 实 就 是 要 找到 一 个 x? 值 ， 使 得 : 
be, Ms 
由 于 
— 1)s? 
En -1 
因此 可 以 用 其 来 替代 x?， 于 是 有 : 
— 1)s? 
op x 
并 根据 上 式 推导 出 总 体 方差 o? 在 1 一 a 置信 水 平 下 的 置信 区 间 为 : 
n = po mn 1)s2? 
Xa/2 X1-a/2 
据 此 便 可 对 总 体 方差 的 置信 区 间 进 行 估计 。 由 于 R 中 并 没有 提供 直接 用 于 方差 区 间 估 计 的 函数 ， 
我 们 便 自行 编写 了 下 面 这 个 函数 用 以 执行 相应 的 计算 。 
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> chisgq.var.test <- function (x, alpha){ 
options (digits=4) 
result<=list( ) 
n<-length (x) 
v<-var (x) 
result$conf.int.var <- cl( 
(n=-1)*v/qchisqgq (alpha/2, df=n-1, lower.tail=F), 
(n-1)*v/qchisgq(alpha/2, df=n-l1, lower.tail=T)) 
result$conf.int.se <- sqgqrt(result$conf.int.var) 
result 
} 
以 食品 厂 抽检 产品 质量 的 数据 为 例 ， 调 用 以 上 函数 可 以 算得 56.83<o?<180.39。 相 应 地 ， 
总 体 标 准 差 的 置信 区 间 则 为 7.538&o<13.431， 即 该 食品 厂 生成 的 食品 总 体质 量 标准 差 95% 的 
置信 区 间 为 7.538~13.431g。 
> chisqgq. Var:teést (xr 0%.05) 
$conf ,int,.var 
[2] 56.83 180%39 
$conf.int.se 
了 STEEL 


8.1.3， 双 总 体 均值 差 的 估计 


第 4 章 中 兽 经 指出 , 若 和 ~NGu oz)， 其 中 = 1,2,…,n, 且 相 互 独立 , 则 它们 的 线性 组 合 : 
CiXi 十 CoXz 十 … 十 CnXn， 仍 服从 正 态 分 布 ， 其 中 C1,C2,…, Cn 是 不 全 为 0 的 常数 。 并 由 数学 期 


望 和 方差 的 性 质 可 知 : 
n n 
CiX1 十 C2X2 + + CnXn~N (> ci, > die? 


i=1 i=1 
所 以 ， 假 设 随机 变量 的 估计 符合 正 态 分 布 的 一 个 潜在 好 处 就 是 ， 它 们 的 线性 组 合 仍然 可 以 满足 
正 态 分 布 的 假设 。 如 果 有 Xi~N(1,0o?) 和 Xs~N (1,02)， 显然 有 : 


aXi + bXs~N (en + bpy, [oz 十 p08 ) 
当 a 一 1， b 三 一 1 时 ， 进而 有 : 
Xi — Xs~N (wa 一 和 | 者 了 ) 


这 其 实 给 出 了 两 个 独立 的 正 态 分 布 的 总 体 之 差 的 分 布 。 


从 X 和 Xs 这 两 个 总 体 中 分 别 抽取 样本 量 为 n; 和 ns 的 两 个 随机 样本 ， 其 样本 均值 分 别 为 1 和 
Xz2， 则 样本 均值 去 满足 坪 ~(j,of/m1)， 样 本 均值 并 满足 ~(112,0 呈 /nz)。 进 而 样本 均值 之 差 
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ee or .62 
(Xi — X2)~N (a Hz, 二 a 
n2 


由 此 即 得 到 了 进行 双 总 体 均值 之 差 区 间 估 计 的 所 需 素材 。 在 具体 讨论 时 我 们 将 问题 分 成 两 类 ， 
即 独立 样本 数据 的 双 总 体 均 值 差 估计 问题 ， 以 及 配对 样本 数据 的 双 总 体 均值 差 估计 问题 

1. 独立 样本 

如 果 两 个 样本 是 从 两 个 总 体 中 独立 抽取 的 ， 即 一 个 样本 中 的 元 素 与 另 一 个 样本 中 的 元 素 相 
互 独立 ， 则 称 为 独立 样本 (Independent Samples )。 


当 两 总 体 的 方差 咱 和 已 知 的 时 候 ， 根 据 前 面 推出 的 结论 ， 类 似 于 单个 总 体 区 间 估 计 ， 可 
以 得 出 让 一 如 的 置信 水 平 为 1 一 a 的 双 尾 置信 区 间 为 : 


oz 机 四 oOo? + 02 
天 一 入 一 zuj2 | 一 十 一 ,XX 一 Xz 十 Zwyz | 一 十 一 
1 2 a/2 ni -es 2 oa/2 nz 


如 果 两 个 总 体 的 方差 未 知 ， 则 可 以 用 两 个 样本 方差 sf 和 sz 来 代 蔡 ， 这 时 ju 一 2 的 置信 水 平 
为 1 一 a 的 双 尾 置信 区 间 为 : 


6 —X2 — Za/2 + 一 ,和 一 和 +2ayz | 二 a 


对 于 两 个 总 体 的 方差 未 知 的 情况 , 我 们 将 进一步 划分 为 两 种 情况 , 首先 当 两 总 体 方差 相同 ， 
No? = ys 但 未 知 时 ， 可 以 得 到 : 
1 二 圭一 大 一 (a 一 ho) 


X1 满足; 





万 3 ~t(ni 十 7 一 2) 
S 而 不 元 
其 中 
;ln 1)sf + (nz = 1)s3 
和 Wi + Na —:2 
此 处 的 s2 和 s2 分 别 是 样本 方差 。 类似 之 前 的 做 法 ,可 以 得 到 ji 一 的 置信 水 平 为 1 一 a 的 双 尾 置 
信和 区间 为 : 
1 
6 一 驴 一 tae/z(0n 十 7 一 2)5 | 一 + ee Xi 一 和 tayan + nz — 2)s" ta 十 
n> nn nz 
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ocean 


来 看 一 个 例子 。 假 设 有 编号 为 1 和 2 的 两 种 饲料 ， 我 们 现在 分 别 用 它们 来 喂养 两 组 肉鸡 ， 
然后 记录 每 只 鸡 的 增 重 情况 ， 数 据 如 表 8-5 所 示 。 





表 8-5 ”喂食 不 同 饲料 的 肉鸡 增 重 情况 






42, 68, 85 











42, 97, 81, 95, 61, 103 
首先 在 R 中 录入 数据 ， 并 分 别 计算 两 组 数据 的 均值 和 方差 ， 示 例 代码 如 下 。 


> chicks <- data. frame (feed = rep(lc(l,2), times=c(3,6)), 

















十 Weight gqain 二 co( 
十 42, Oy 85， 
+ 42, 9 Bl 995, 06, 103)) 


> tapply (chicks$weight gain, chicks$feed, mean) 
1 2 

65.00000 79.83333 

>'tapply(chicksSweight gain chicksstfteed, sd) 
1 2 

21 .65641 23.86979 


从 输出 结果 来 看 ， 两 组 样本 观察 值 的 标准 差 是 非常 相近 的 ， 因 此 我 们 假设 两 个 总 体 的 方差 是 相 
等 的 。 


根据 上 面 给 出 的 公式 ， 首 先 来 计算 s' 的 值 ， 计 算 过 程 如 下 : 


-3 2 x 21.66? + 5 x 23.87? We 
3 二 6 二 2 了 


因此 ji 一 pz 在 95% 置 信 水 平 下 的 置信 区 间 为 : 


1 1 
65 79.83 士 coszg(t7) x 23.26 6 丰 怨 


= 一 14.83 + 38.90 = (—53.72, 24.06) 
或 者 在 R 中 使 用 t.test0) 函 数 来 执行 上 述 计 算 过 程 ， 示 例 代 码 如 下 。 区 间 估 计 的 结果 已 经 用 方 框 
加 以 标识 。 这 个 输出 中 的 其 他 指标 结果 我 们 将 在 假设 检验 部 分 继续 讨论 。 


> ttesti(weight gain'™ feed, data = chicks, var.equal = TROE) 














Two Sample t-test 
data: "weight gain bY teed 
t = =0.90L9,. .dF = p-value = 0.3001 
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eon 


alternative hypothesis: true difference in means is not equal to 0 
95 percent confidence interval: 


sample estimates: 
mean ln group .1 mean in gaouap 2 
65.00000 719 .63333 


通过 设置 函数 ttest0 中 的 参数 可 以 修改 它 的 一 些 执行 细节 ， 有 具体 参数 列表 读者 可 以 参阅 R 
的 帮助 文档 。 这 里 仅 提 其 中 几 个 比较 重要 的 。 首 先 ， 参 数 paired 的 默认 值 为 FALSE， 表 示 执 行 
的 是 独立 样本 的 情况 。 若 将 其 置 为 TRUE， 则 表示 要 处 理 的 是 配对 样本 。 参 数 conflevel 的 默认 
值 为 0.95， 即 在 95% 的 置信 水 平 下 进行 区 间 估 计 ， 调 整 它 便 可 以 改变 置信 水 平 。 参 数 var.equal 
的 默认 值 为 FALSE， 如 果 将 其 置 为 TRUE， 就 表示 两 个 总 体 有 具有 相同 的 方差 。 


此 外 ， 当 两 总 体 的 方差 未 知 ， 且 oz? 过 时 ， 可 以 证 明 
Ry mh a 
S2 $s2 
i 











近似 成 立 ， 其 中 


(of 小 (o2)’ 
"(E+ 2 fe in — 1) - n2 (nz 一 | 


但 由 于 啊 和 忠 未知， 所 以 用 样本 方差 只 和 sz 来 近似 ， 即 : 


Es 
Rg 1) nzs(nz— 2) 


可 以 近似 地 认为 t~t(V)。 并 由 此 得 到 pu 一 心 的 置信 水 平 为 1 - a 的 双 尾 置信 区 间 为 : 


EN i 品 - 强 可 
be Ai Eee Xi — Kz + tayz(V) ee 


仍 以 饲料 和 肉鸡 增 重 的 数据 为 例 ， 可 以 算得 : 
S? 21.662 S$ 23.87? 
es 多 156.3852, ri 
3 n> 



































~ 94.9628 


进而 有 : 
(156.3852 + 94.9628)? 


= (156.38522/2) + (94.96282]5) ~ 4503 


因此 pi 一 kz 在 95% 置 信 水 平 下 的 置信 区 间 为 : 
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23:872 21;662 
十 


65 一 79.83 + co.97s (ta.s03) X 6 3 








二 一 14.83 圭 2.6585 x 15.85 = (一 56.97,27.30) 


同样 ， 上 述 计算 过 程 可 以 在 R 中 使 用 t.test() 函 数 来 完成 ， 示 例 代 码 如 下 。 输 出 中 的 其 他 指标 结 
果 在 假设 检验 部 分 还 会 有 更 为 详细 的 讨论 。 


> t.test(weight gain ~ feed, aata = chicks) 
Welch ‘Two Sample t-test 


data: weight gain by feed 

t= -0.9357, df = 4.503, p-value = 0.3968 

alternative hypothesis: true difference in means is not equal to 0 
95 percent confidence interval: 


-56.97338| [27.3067]| 

sample estimates: 

mean in group 1 mean in group 2 
65.00000 MO 33333 


2. 配对 样本 

在 前 面 的 例子 中 ， 我 们 为 了 讨论 两 种 饲料 的 差异 ， 从 两 个 独立 的 总 体 中 进行 了 抽样 ， 但 使 
用 独立 样本 来 估计 两 个 总 体 均值 之 差 也 潜在 地 有 一 些 浆 端 。 试 想 一 下 ， 如 果 喂 食 饲 料 1 的 肉鸡 
和 喂食 饲料 2 的 肉鸡 体质 上 本 来 就 存在 差异 ， 可 能 其 中 一 种 吸收 更 好 而 另 一 组 则 略 差 ， 显 然 实 
验 结果 的 说 服 力 将 大 打折 扣 。 这 种 “有 失 公 平 ”的 独立 抽样 往往 会 掩盖 一 些 真 正 的 差异 。 


在 实验 设计 中 ， 为 了 控制 其 他 有 失 公平 的 因素 ， 尽 量 降低 不 利 影响 ， 使 用 配对 样本 (Paired 
Sample) 就 是 一 种 值得 推荐 的 做 法 。 所 谓 配 对 样本 就 是 指 一 个 样本 中 的 数据 与 男 一 个 样本 中 的 
数据 是 相互 对 应 的 。 比 如 ， 在 验证 饲料 差异 的 实验 中 ， 可 以 选用 同一 窝 诞 下 的 一 对 小 鸡 作为 一 
个 配对 组 ， 因 为 我 们 认为 同一 窜 诞 下 的 小 鸡 之 间 差 异 最 小 。 按 照 这 种 思路 ， 如 表 8-6 所 示 ， 一 
共有 六 个 配对 组 参与 实验 。 然 后 从 每 组 中 随机 选取 一 只 小 鸡 喂食 饲料 1， 然 后 向 另外 一 只 小 鸡 
喂食 饲料 2， 并 记录 肉鸡 体重 增加 的 数据 如 下 。 


表 8-6 配对 实验 数据 


配对 6 组 








使 用 配对 样本 进行 估计 时 , 在 大 样本 条 件 下 ,两 个 总 体 均 值 之 差 p 一 ys 在 1 一 a 置信 水 平 下 
的 置信 区 间 为 : 
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二 Oa 
全 -aa d+] 


其 中 , d 是 一 组 配对 样本 之 间 的 差 值 , d 表 示 各 差 值 的 均值 ; ou 表示 各 差 值 的 标准 差 。 当 总 体 ou 未 
知 时 ， 可 用 样本 差 值 的 标准 差 sg 来 代替 。 


在 小 样本 情况 下 ， 假 定 两 个 总 体 观 察 值 的 配对 差 值 服 从 正 态 分 布 ， 那 么 两 个 总 体 均 值 之 差 
M1 一 Wz 在 1 一 a 置信 水 平 下 的 置信 区 间 为 : 
a Sad = Sa 
(a -tosh — 1) tina — 号 
例如 ,根据 表 8-6 中 的 数据 可 以 算得 各 配对 组 之 差分 别 为 ~-2、6、13、10、7 和 6, 以 及 d = 6.667， 
sa = 5.046。 因 此 ， 总 体 均 值 之 差 p 一 心 在 95% 置 信 水 平 下 的 置信 区 间 为 : 
6.667 + coozs (ts) x EO 
— “0.975\"5 -6 
同样 可 以 在 R 中 使 用 t.test0 函 数 来 完成 以 上 计算 过 程 ,此 时 需要 将 参数 paired 置 为 TRUE。 
示例 代码 如 下 ， 输 出 结果 中 的 置信 区 间 估 计 已 经 用 方 框 标 出 。 这 个 区 间 估 计 不 包含 0， 其 实 也 
就 意味 着 二 者 是 存在 差异 的 ， 即 饲料 1 和 饲料 2 的 喂食 结果 不 同 。 
> Reedsl = CAMd4 Sr O07 SO 9D0 97 


> Eeed.2 <~ CU(42, C1 BL 95 SI DSS) 
> t.test(Feed.2, Feed.1, paired = T) 





~ (1.37,11.96) 


Paired t-test 


data; Feed.2 and Feed.1 

t= 3.23597 df = ps prvalle = OQ.02305 

alternative hypothesis:; true difference in means is not equal to 0 
95 percent confidence interval: 


1.370741| |11.962592 
sample estimates: 


mean of the differences 
6.666667 


当然 ， 如 果 先 计算 配对 组 之 差 ， 然 后 再 做 ttest() 所 得 之 结果 将 是 一 样 的 。 读 者 可 以 自行 尝试 下 
面 的 代码 ， 并 观察 结果 
> Eee ZeReeasL 
> 七 test (diff) 

最 后 需要 说 明 的 是 ， 如 果 仅 是 执行 普通 的 t.test()， 而 非 是 做 配对 数据 的 ttest0)， 那 么 我 们 
将 得 到 一 个 宽泛 得 多 的 区 间 估 计 。 如 下 代码 所 示 ， 而 且 最 终 估计 的 置信 区 间 还 包含 了 0， 这 使 
得 我 们 将 无 法 确定 饲料 1 和 饲料 2 的 喂食 结果 是 否 不 同 。 
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nape 


> Feed <- cl(Feed.1, Feed.,2) 
> group < clrep(l, 6), rep(2，6)) 
>"t.test(Reed'~ group) 


Welch Two Sample t-test 


data: Feed by group 
t = -0.514, df = 99.9831, p-value = 0.61686 I 
alternative hypothesis! true difference in means is not egal to 0 ， 
95 Dexeent confidence interval: 
-35.63370 22.30037 
sample estimates: 
mean in groun .Ll mean in group 2 
713.16667 #093333 


8.1.4” 双 总 体 比例 差 的 估计 


由 样本 比例 的 抽样 分 布 可 知 ， 从 两 个 满足 二 项 分 布 的 总 体 中 抽出 两 个 独立 的 样本 ， 那 么 两 
个 样本 比例 之 差 的 抽样 服从 正 态 分 布 ， 即 : 


pi(1 —p1) ,pz(1 — p2) 
-mr 一 一 + 一 一 


ni nz 





再 对 两 个 样本 比例 之 差 进 行 标准 化 ， 即 得 : 
a (Pi — FP2) — (pi — p2) 


pi(1 一 Di) 十 pz(1 一 p2) 
ni Nn2 


当 两 个 总 体 的 比例 p; 和 pz 未 知 时 ， 可 用 样本 比例 疡 和 来 代 蔡 。 所 以 ， 根 据 正 态 分 布 建 立 
的 两 个 总 体 比 例 之 差 p1 一 pz 在 1 一 a 置信 水 平 下 的 置信 区 间 为 : 


~N(0,1) 


D1) | 可 于 一 总) 
n> 


下 面 来 看 一 个 例子 ,在 某 电 视 节 目的 收视 率 调查 中 , 从 农村 随机 调查 了 400 人 , 其 中 有 128 人 
表示 收看 了 该 节目 ， 从 城市 随机 调查 了 500 人 ， 其 中 有 225 人 表示 收看 了 该 节目 。 请 以 95% 的 置 
言 水 平 来 估计 城市 与 农村 收视 率 差距 的 置信 区 间 。 

在 民 中 可 以 使 用 prop.testO 函 数 来 执行 双 总 体 比例 差 的 区 间 估 计 , 示例 代码 如 下 。 输出 结果 
中 的 置信 区 间 估 计 已 经 用 方 框 标 出 。 参 数 correct 的 默认 值 为 TRUE， 表示 计算 过 程 中 需要 使 用 
连续 性 修正 。 如 果 将 其 置 为 FALSE， 则 所 得 之 结 人 吉 果 完全 一 致 。 
> prop,test (x=c(225,128),n=c(500,400), correct=F) - ， 


(Pi 一 方 ) 土 Za/2 
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2-sample test for equality of proportions without continuity 
coornreaction 


data: CC{225, 128) out of (500, ‘400) 

X-squared = 15.7542, df = 1, p-value = 7.213e-05 
alternative hypothesis: two.sided 

95 percent confidence interval: 


0.06682346| |0 .19317654 


sample estimates: 
ProD 山 proB 2 
0.45 Qe 
从 输出 结果 中 可 以 看 出 估计 的 置信 区 间 为 (6.68%, 19.32%)， 即 城市 与 农村 收视 率 差 值 的 95% 的 
置信 区 间 为 6.68%~19.32%。 


如 果 使 用 连续 性 修正 ， 则 所 得 之 结果 如 下 。 


> prop.test'(x=c(225,;128) ,n=c.(500, 400)) 


2-sample test for equality of proportions with continuity 
Correction 


data: Cc(225, 128) out of c(500, 400) 

xX-squared = 15.2136, df = 1, p-value = 9.601e-05 
alternative hypothesis: two.sided 

95''percent confidence interval:; 


0.06457346| |0 .19542654 


sample estimates: 
prop 1 prop 2 
BUS 


8.2 ”假设 检验 


假设 检验 是 除 参 数 估计 之 外 的 另 一 类 重要 的 统计 推断 问题 。 它 的 基本 思想 可 以 用 小 概率 原 
理 来 解释 。 所 谓 小 概率 原理 ， 就 是 认为 小 概率 事件 在 一 次 实验 中 是 几乎 不 可 能 发 生 的 。 也 就 是 
说 ， 对 总 体 的 某 个 假设 是 真实 的 ， 那 么 不 利于 或 不 能 支持 这 一 假设 的 事件 在 一 次 实验 中 是 几乎 
不 可 能 发 生 的 ， 要 是 在 一 次 实验 中 该 事件 竟然 发 生 了 ， 我 们 就 有 理由 怀疑 这 一 假设 的 真实 性 ， 
进而 拒绝 这 一 假设 。 


8.2.1 基本 概念 
大 卫 。 萨 尔 斯 伯 格 (David Salsburg) 在 《女士 品 茶 : 20 世纪 统计 怎样 变革 了 科学 》 一 书 中 ， 
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和 到 H 


以 英国 剑桥 一 群 科 学 家 及 其 夫人 们 在 一 个 慷 懒 的 午后 所 做 的 一 个 小 小 的 实验 为 开篇 ， 为 读者 展 
开 了 一 个 关于 20 世纪 统计 革命 的 别 样 世界 。 而 开篇 这 个 品 茶 故事 大 约 是 这 样 的 : 当时 一 位 女士 
表示 向 一 杯 茶 中 加 入 牛奶 和 向 一 杯 奶 中 加 入 茶水 ， 二 者 的 味道 品尝 起 来 是 不 同 的 。 她 的 这 一 表 
述 立 刻 引 起 了 当时 在 场 的 众多 豁 智 头 脑 的 争论 。 其 中 一 位 科学 家 决定 用 科学 的 方法 来 测试 一 下 
这 位 女士 的 假设 。 这 个 人 就 是 大 名 易 易 的 英国 统计 与 遗传 学 家 ， 现 代 统计 科学 的 催 基 人 有 罗 纳 
德 。 费 希 尔 (Ronald Fisher)。 费 希 尔 给 这 位 女士 提供 了 八 杯葛 了 牛奶 的 茶 ， 其 中 一 些 是 先 放 的 
牛奶 ， 另 一 些 则 是 先 放 的 茶水 ， 然 后 费 希 尔 让 这 位 女士 品尝 后 判断 每 一 杯 茶 的 情况 。 


现在 我 们 的 问题 来 了 ， 这 位 女士 能 够 成 功 猜 对 多 少 杯 茶 的 情况 才 足 以 证 明 她 的 理论 是 正确 
的 ,8 杯 ? 7 杯 ? 还 是 6 杯 ? 解决 该 问题 的 一 个 有 效 方法 是 计算 一 个 P 值 ， 然 后 由 此 推断 假设 是 
否 成 立 。P 值 C(P-zalue ) 就 是 当 原 假设 为 真 时 所 得 到 的 样本 观察 结果 或 更 极端 结果 出 现 的 概率 。 
如 果 P 值 很 小 ， 则 说 明 原 假设 情况 的 发 生 概 率 很 小 。 而 如 果 确 实 出 现 了 P 值 很 小 的 情况 ， 则 根据 
小 概率 原理 ， 我 们 就 有 理由 拒绝 原 假设 。P 值 越 小 ， 拒 绝 原 假 设 的 理由 就 越 充分 。 这 就 好 比 说 
“种 瓜 得 瓜 ， 种 豆 得 豆 ”。 在 原 假设 “种 下 去 的 是 瓜 ” 这 个 条 件 下 ， 正 常 得 出 来 的 也 应 该 是 瓜 。 
相反 ， 如 果 得 出 来 的 是 瓜 这 件 事 越 不 可 能 发 生 ， 我 们 否定 原 假设 的 把 握 就 越 大 。 如 果 得 出 来 的 
是 豆 , 也 就 表明 得 出 来 的 是 瓜 这 件 事 的 可 能 性 小 到 了 0, 这 时 我 们 就 有 足够 的 理由 推翻 原 假 设 。 
也 就 可 以 确定 种 下 去 的 根本 就 不 是 瓜 。 


假定 在 总 共 的 八 杯 竞 了 牛奶 的 茶 中 ， 有 六 杯 的 情况 都 被 猜 中 了 。 现 在 我 们 就 来 计算 一 下 这 
个 P 值 。 不 过 在 此 之 前 ， 还 需要 先 建 立 原 假设 和 备 择 假设 。 原 假设 通常 是 指 那 些 单纯 由 随机 因 
素 导 致 的 采样 观察 结果 ， 通 常用 Ho 表示 。 而 备 择 假设 ， 则 是 指 受 某 些 非 随机 原因 影响 而 得 到 的 
采样 观察 结果 ， 通 常用 表示。 如 果 从 假设 检验 具体 操作 的 角度 来 说 ， 常 常 把 一 个 被 检验 的 假 
设 称 为 原 假设 ， 当 原 假 设 被 拒绝 时 而 接收 的 假设 被 称 为 备 择 假设 ， 原 假设 和 备 择 假设 往往 成 对 
出 现 。 此 外 ， 原 假设 往往 是 研究 者 想 收 集 证 据 予 以 反对 的 假设 ， 当 然 也 是 有 把 握 的 、 不 能 轻易 
被 否定 的 命题 ， 而 备 择 假设 则 是 研究 者 想 收 集 证 据 予 以 支持 的 假设 ， 同 时 也 是 无 把 握 的 、 不 能 
轻易 肯定 的 命题 。 

就 当前 所 讨论 的 饮 茶 问题 而 言 ， 显 然 在 不 受 非 随 机 因素 影响 的 情况 下 ， 那 个 常识 性 的 、 似 
乎 很 难 被 否定 的 命题 应 该 是 “无 论 是 先 放 茶 水 还 是 先 放 牛奶 是 没有 区 别 的 ” 如 果 将 这 个 命题 作 
为 H。， 其 实 也 就 等 同 于 那个 女士 对 茶 的 判断 完全 是 随机 的 ， 因 此 她 猜 中 的 概率 应 该 是 0.5。 这 时 
随机 变量 X~B8(8, 0.5)， 即 满足 n = 8，p = 0.5 的 二 项 分 布 。 相 应 的 备 择 假设 Fi 为 该 女士 能 够 以 
大 于 0.5 的 概率 猜 对 茶 的 情况 。 

直观 上 , 如 果 八 杯 竞 了 和 牛奶 的 茶 中 , 有 六 标的 情况 都 被 猜 中 了 , 则 可 以 算出 方 = 6/8 = 0.75。 
这 个 值 大 于 0.5, 但 这 是 否 大 到 可 以 令 我 们 相信 先 放 茶水 还 是 先 放 牛奶 确 有 不 同 这 个 结论 呢 ? 所 
以 需要 来 计算 一 下 P 值 ， 即 Pr(X>6)。 使 用 下 面 这 段 代 码 可 以 算得 P 值 是 0.1445312。 
> 1 = pbinom(5, size = 8, prob = 0.5) 
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RE 


[hl Odd45312 

可 见 , P 值 并 不 是 很 显著 。 通 常 都 需要 P 值 小 于 0.05, 才能 令 我 们 有 足够 的 把 握 拒 绝 原 假设 。 
而 本 题 所 得 之 结果 则 表明 没有 足够 的 证 据 支 持 我 们 拒绝 原 假 设 。 所 以 如 果 那 位 女士 猜 对 了 八 杯 
中 的 六 杯 ， 也 没有 足够 的 证 据 表 明 先 加 牛奶 或 者 先 加 茶水 会 有 何不 同 。 

还 应 该 注意 到 以 上 所 讨论 的 是 一 个 单 尾 的 问题 。 因为 备 择 假设 是 说 该 女士 能 够 以 大 于 0.5 的 
概率 猜 对 茶 的 情况 。 我 们 日 常 遇 到 的 很 多 问题 也 有 可 能 是 双 尾 的 ， 比 如 原 假设 是 概率 等 于 某 个 
值 ， 而 备 择 假设 则 是 不 等 于 该 值 ， 即 大 于 或 者 小 于 该 值 。 在 这 种 情况 下 ,通常 需要 将 算得 的 P 值 
翻 倍 ， 除 非 已 经 求 得 的 P 值 大 于 0.5， 此 时 我 们 就 令 P 值 为 1。 另 外 ， 当 ?m 较 大 的 时 候 ， 还 可 以 用 
正 态 分 布 来 近似 二 项 分 布 。 

1965 年 ， 美国 联邦 最 高 法 院 对 斯 文 诉 阿 拉巴 马 州 一 案 做 出 了 裁定 。 该 案 也 是 法 学 界 在 研究 
预 断 排除 原则 时 常常 被 提 及 的 著名 案例 。 本 案 的 主角 斯 文 是 一 个 非洲 裔 美国 人 ， 他 被 控 于 阿拉 
巴 马 州 的 塔 拉 迪 加 地 区 对 一 名 白人 妇女 实施 了 强奸 犯罪 ， 并 因此 被 判处 死刑 。 最 终 案件 被 上 诉 
至 最 高 法 院 ， 理 由 是 陪审 团 中 没有 黑人 成 员 ， 斯 文 据 此 认为 自己 受到 了 不 公正 的 审判 。 

最 高 法 院 驳 回 了 上 述 请 求 。 根 据 阿拉 巴 马 州 法 律 ， 陪 审 团 成 员 是 从 一 个 100 人 的 名 单 中 抽 
选 的 ， 而 当时 的 100 个 备 选 成 员 中 有 8 名 是 黑人 。 根 据 诉 讼 过 程 中 的 无 因 回避 原则 ， 这 8 名 黑 
人 被 排除 在 了 此 处 审判 的 陪审 团 之 外 ， 而 无 因 回避 原则 本 身 是 受 宪法 保护 的 。 最 高 法 院 在 裁决 
书 中 也 指出 :“ 无 因 回避 的 功能 不 仅 在 于 消除 双方 的 极端 不 公正 ， 也 要 确保 陪审 员 仅仅 依赖 于 呈 
现在 他 们 面前 的 证 据 做 出 裁决 ， 而 不 能 依赖 于 其 他 因素 …… 无 因 回避 可 允许 辩护 方 通过 预先 审 
核 程序 中 的 调查 提问 以 确定 偏见 的 可 能 ， 消 除 陪审 员 的 敌意 ”此 外 最 高 法 院 还 认为 ， 在 陪审 团 
备 选 名 单 上 有 8 名 黑人 成 员 ， 表 明 整 体 比 例 上 的 差异 很 小 ， 所 以 也 就 不 存在 刻意 引入 或 者 排除 
一 定数 量 的 黑人 成 员 的 意图 。 

阿拉 巴 马 州 当时 规定 只 要 超过 21 岁 就 符合 陪审 团 成 员 的 资格 。 而 在 塔 拉 迪 加 地 区 满足 这 个 
条 件 的 人 大 约 有 16000 人 ， 其 中 26% 是 非洲 裔 美国 人 。 我 们 现在 的 问题 就 是 ， 如 果 这 100 名 备 
选 的 陪审 团 成 员 确实 是 从 符合 条 件 的 人 群 中 随机 选取 的 ， 那 么 其 中 黑人 成 员 的 数量 会 否 是 8 人 
或 者 更 少 ? 可 以 在 R 中 用 下 列 命令 计算 得 到 我 们 想 要 的 答案 。 
> Phinom(er dlUor O00.26) 

[1] .4.734795e=06 
概率 是 0.0000047， 也 就 相当 于 二 十 万 分 之 一 的 机 会 。 


对 于 假设 检验 而 言 ， 也 可 以 使 用 正 态 分 布 的 近似 参数 来 计算 置信 区 间 。 唯 一 的 不 同 在 于 此 
时 是 在 原 假设 Ho:p = po 的 前 提 下 计算 概率 值 ， 所 以 原来 在 计算 置信 区 间 时 所 采用 的 近似 
p(1—p)  P(1—) 
n n 
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现在 就 不 再 需要 了 。 取 而 代 之 的 是 在 计算 标准 误差 和 P 值 时 直接 使 用 po 即 可 。 
如 果 估 计 值 用 表示 ， 其 (估计 的 ) 标准 误差 是 : 


Vpoll — po)/n 
检验 统计 量 为 


P—po 
VpPo(ll — po)/n 
是 当 n 比 较 大 时 ， 在 原 假设 前 提 下 ， 通 过 对 标准 正 态 分 布 的 近似 得 到 的 。 

继续 前 面 的 例子 ， 现 在 原 假设 可 以 表述 为 Ho:p = 0.26， 相 对 应 的 备 择 假设 为 Hi:p < 0.26。 
在 一 个 100 人 的 备 选 陪审 团 名 单 中 有 8 名 黑人 成 员 ， 此 时 P 值 可 由 下 式 给 出 : 

0.08 一 0.26 
V0.26 x 0.74/100 
由 此 便 可 以 拒绝 原 假设 ， 从 而 认为 法 院 的 裁定 在 很 大 程度 上 是 错误 的 。 

需要 说 明 的 是 ， 当 使 用 正 态 分 布 〈 它 是 连续 的 ) 作为 二 项 分 布 〈 它 是 离散 的 ) 的 近似 时 ， 
要 对 二 项 分 布 中 的 离散 整数 x 进行 连续 性 修正 ， 将 数值 x 用 从 x 一 0.5 到 x 十 0.5 的 区 间 来 代替 《〈 即 
加 上 与 减 去 0.5)。 就 本 题 而 言 ， 为 了 得 到 一 个 更 好 的 近似 ， 连 续 性 修正 就 是 令 Pr(X<8) = 
Pr(X* < 8.5)。 所 以 有 : 


pyr (< ) = Pr(Z< —4.104) = 0.000020 


0.085 — 0.26 


V0.26 x 0.74/100 


此 处 无 意 要 对 连续 性 修正 做 过 多 的 解释 , 但 请 记 住 , 若 不 使 用 连续 性 修正 , 那么 所 得 之 P 值 
将 总 是 偏 小 ， 相 应 的 置信 区 间 也 偏 窜 。 


上 述 计算 过 程 在 R 中 可 以 使 用 prop.test 来 实现 ， 示 例 代 码 如 下 。 


> prop.test(8,100,p=0.26/alternative="less") 


Pr (zs = Pr(Z 乏 一 3.989657) = 0.000033 


1-sample proportions test with continuity correction 


data:" Ss out og O00 nmll probability.0.26 
XxX-squared = 15.9174, df = 1, p-value = 3.308e-05 
alternative hypothesis: true p is less than 0.26 
95 percent confidence interval: 
0.0000000 .0.1424974 
sample estimates: 

卫 
0.08 
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如 同 前 面 所 分 析 的 那样 ， 如 果 不 使 用 正 态 分 布 对 二 项 分 布 做 近似 ， 仅 仅 基于 二 项 分 布 来 进 
行 检验 也 是 可 行 的 。 此 时 需要 用 到 binom.test 函数 ， 示 例 代 码 如 下 。 


> binom.test(8,100,p=0.26,alternative="]less") 
Exact binomial test 


data: 8 and 100 
number of successes = 8, number of trials = 100, p-value = 4.735e-06 
alternative hypothesis: true probability of success is less than 0.26 
95 percent confidence interval: 
QO0000000" 0 1397L07L 
sample estimates: 
probability of success 
0.08 


8.2.2 两 类 错误 

对 原 假设 提出 的 命题 ， 要 根据 样本 数据 提供 的 信息 进行 判断 ， 并 得 出 “ 原 假设 正确 ”或 者 
“ 原 假设 错误 ”的 结论 。 而 这 个 判断 有 可 能 正确 ， 也 有 可 能 错误 。 前 面 在 假设 检验 的 基本 思想 中 
已 经 指出 ， 假 设 检验 所 依据 的 基本 原理 是 小 概率 原理 ， 由 此 原理 对 原 假设 做 出 判断 ， 而 在 整个 
推理 判断 过 程 中 所 运用 的 是 一 种 反 证 法 的 思路 。 由 于 小 概率 事件 ， 无 论 其 概率 多 么 小 ， 仍 然 还 
是 有 可 能 发 生 的 ， 所 以 利用 前 面 的 方法 进行 假设 检验 时 ， 有 可 能 做 出 错误 的 判断 。 这 种 错误 的 
判断 有 两 种 情形 : 

。 一 方面 ， 当 原 假设 成 立时 ， 由 于 样本 的 随机 性 ， 结 果 拒绝 了 Ho。， 犯 了 “ 弃 真 ”错误 ， 
又 被 称 为 第 一 类 错误 也 就 是 当 应 该 接受 原 假设 Ho 而 拒绝 这 个 假设 时 ， 被 称 为 犯 了 第 一 
类 错误 。 当 小 概率 事件 确实 发 生 时 ， 就 会 导致 拒绝 吉 ,而 犯 第 一 类 错误 ， 因 此 犯 第 一 类 错 
误 的 概率 为 <， 即 假设 检验 的 显著 性 水 平 。 

另 一 方面 ， 当 原 假设 H 不 成 立时 ， 因 样本 的 随机 性 ， 结 果 接受 了 Ho。， 便 犯 了 “ 存 伪 ” 错 
误 ， 又 被 称 为 第 二 类 错误 ， 即 当 应 该 拒绝 原 假设 思 而 接受 了 这 个 假设 时 ， 被 称 为 犯 了 第 
二 类 错误 。 犯 第 二 类 错误 的 概率 为 8。 

当 原 假设 Ho 为 真 时 ,我 们 却 将 其 拒绝 ,如 果 犯 这 种 错误 的 概率 用 a 表示 。。 那么 当 册 为 真 时 ， 
我 们 没有 拒绝 它 ， 就 表示 做 出 了 正确 的 决策 ， 其 概率 显然 就 应 该 是 1 - a。 当 原 假设 Ho 为 假 ， 我 
们 却 没有 拒绝 它 ， 犯 这 种 错误 的 概率 用 有 表示 。 那 么 ， 当 辆 为 假 ， 我 们 也 正确 地 拒绝 了 它 ， 其 
概率 自然 为 1 ~- 8。 正 确 决策 和 错误 决策 的 概率 可 以 归纳 为 表 8-7。 
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表 8-7 ”假设 检验 中 的 各 种 可 能 结果 及 其 概率 


接受 HH 拒绝 Ho 
Hi 为 真 存 伪 错误 (B) 决策 正确 (1 一 B) 

人 们 总 是 希望 两 类 错误 发 生 的 概率 w 和 有 都 越 小 越 好 ， 然 而 ， 实 际 上 却 很 难 做 到 。 当 样本 容 
量 ? 确 定 后 ， 如 果 w 变 小 ， 则 检验 的 拒绝 域 变 小 ， 相 应 的 接受 域 就 会 变 大 ， 因 此 5 值 也 就 随 之 变 
大 ; 相反 ， 若 8 变 小 ， 则 不 难 想到 w 又 会 变 大 。 我 们 有 时 不 得 不 在 两 类 错误 之 间 做 权衡 。 通 常 来 
说 ， 哪 一 类 错误 所 带 来 的 后 果 更 严重 、 危 害 更 大 ， 在 假设 检验 中 就 应 该 把 哪 一 类 错误 作为 首选 
的 控制 目标 。 但 实际 检验 时 ， 通 常 所 遵循 的 原则 都 是 控制 犯 第 一 类 错误 的 概率 w， 而 不 考虑 犯 
第 二 类 错误 的 概率 ， 这 样 的 检验 被 称 为 显著 性 检验 。 我 们 这 里 所 讨论 的 检验 ， 都 是 显著 性 检 
验 。 又 由 于 显著 性 水 平 w 是 预先 给 定 的 ， 因 而 犯 第 一 类 错误 的 概率 是 可 以 控制 的 。 而 犯 第 二 类 
错误 的 概率 通常 是 不 可 控 的 。 


8.2.3 均值 检验 


根据 假设 检验 的 不 同 内 容 和 进行 检验 的 不 同 条 件 , 需要 采用 不 同 的 检验 统计 量 , 其 中 z 统 计 
量 和 t 统 计量 是 两 个 最 主要 也 最 常用 的 统计 量 。 它 们 常常 用 于 均值 和 比例 的 假设 检验 。 具 体 选择 
哪个 统计 量 往 往 要 考虑 样本 量 的 大 小 以 及 总 体 标准 差 g 是 否 已 知 。 事 实 上 因为 统计 实验 往往 是 针 
对 来 自 某 一 总 体 的 一 组 样本 而 进行 的 ， 所 以 更 多 的 情况 下 ， 我 们 都 认为 总 体 标准 差 g 是 未 知 的 。 
在 参数 估计 部 分 ， 我们 已 经 学 习 了 对 单 总 体 样本 的 均值 估计 以 及 双 总 体 样本 的 均值 差 估 计 ， 本 
节 的 内 容 大 致 上 都 是 基于 前 面 这 些 已 经 得 到 的 结果 而 进行 的 。 

样本 量 大 小 是 决定 选择 哪 种 统计 量 的 一 个 重要 考虑 因素 。 因 为 大 样本 条 件 下 ， 如 果 总 体 是 
正 态 分 布 ， 样 本 统计 量 将 也 服从 正 态 分 布 ; 即使 总 体 是 非 正 态 分 布 的 ， 样 本 统计 量 也 趋 近 于 正 
态 分 布 。 所 以 大 样本 下 的 统计 量 都 将 被 看 成 是 正 态 分 布 的 ， 此 时 即 需要 使 用 z 统 计量 。z 统 计量 
是 以 标准 正 态 分 布 为 基础 的 一 种 统计 量 ， 当 总 体 标 准 差 c 已 知 时 ， 它 的 计算 公式 如 下 : 

a 元 一 Ho 
o/Vn 

正如 前 面 刚刚 说 过 的 ,实际 中 总 体 标准 差 o 往 往 很 难 获取 , 这 时 一 般 用 样本 标准 差 s 来 代替 ， 
如 此 一 来 上 述 式 子 便 可 改写 为 : 











ys a 
s/Vn 


在 样本 量 较 小 的 情况 下 ， 且 总 体 标准 差 未 知 ， 由 于 检验 所 依赖 的 信息 量 不 足 ， 只 能 用 样本 
标准 差 来 代 蔡 总 体 标准 差 。 此 时 样本 统计 量 就 服从 t 分 布 ， 故 应 使 用 t 统 计量 ， 其 计算 公式 为 : 
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X— Uo 


天 sp 





这 里 t 统 计量 的 自由 度 为 n 一 1。 


仍 以 土壤 pH 值 检 验 的 数据 为 例 ， 现 在 我 们 想 问 该 区 域 的 土壤 是 否 是 中 性 的 ( 即 pH=7) ? 
为 此 首先 提出 原 假设 和 备 择 假设 如 下 : 


Ho: pH = 7, Hi:pHz7 
该 题目 显然 属于 小 样本 且 总 体 方差 未 知 的 情况 ， 此 时 可 以 计算 其 t 统 计量 如 下 : 
6.67647 一 7 
0 0.45488/VI7 ~ 


因为 这 是 一 个 双 尾 检验 ， 所 以 可 在 R 中 计算 其 P 值 如 下 : 
S248t (2, 93000 16, Lower,. bal = mi 
[21 0.009757353 
注意 到 以 上 结果 与 先前 使 用 ttest() 函 数 算得 之 结果 是 一 致 的 ， 下 面 我 们 就 来 分 析 一 下 这 个 
结果 意味 着 什么 。 首先 可 以 在 R 中 使 用 下 面 的 代码 来 求 出 双 尾 检验 的 两 个 临界 值 。 
> E0025, SEO SVG 
Li 2, L19905 
[ILS0S 

由 于 原 假设 是 pH = 7， 那 么 它 不 成 立 的 情况 就 有 两 种 要么 pH > 7， 要 么 pH < 7， 所 以 它 
是 一 个 双 尾 检验 。 如 图 8-4 所 示 ， 其 中 两 部 分 阴影 的 面积 之 和 占 总 图 形 面 积 的 5%， 即 两 边 各 
2.5%。 一 方面 已 经 算得 的 t 统 计量 要 小 于 临界 值 -2.1199， 对 称 地 ，t 统 计量 的 相反 数 也 大 于 另 
外 一 个 临界 值 2.1199， 即 样本 数据 的 统计 量 落 入 了 拒绝 域 中 。 样 本 数据 的 统计 量 对 应 的 P 值 也 
小 于 0.05 的 显著 水 平 ， 所 以 应 该 拒绝 原 假设 。 由 此 认为 该 区 域 的 土壤 不 是 中 性 的 。 


拒绝 
< 


一 2.9326 











P 值 = 0.0098 : 





临界 值 t = 一 2.1199 ”临界 值 = 2.1199 
样本 数据 t = 一 2.9326 


图 8-4 双 尾 检测 的 拒绝 域 与 接受 域 
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除了 进行 双 尾 检验 以 外 ， 当 然 还 可 执行 一 个 单 尾 检验 。 比 如 现在 问 该 区 域 的 土壤 是 否 呈 酸 

性 ( 即 pH<7)， 那 么 便 可 提出 如 下 的 原 假设 与 备 择 假设 : 
Ho: pH = 7， Hi:pH<7 

此 时 所 得 之 t 统 计量 并 未 发 生变 化 ， 但 是 P 值 却 不 同 了 ， 可 以 在 R 中 算得 P 值 如 下 : 
> pt{(-2 9326r 16) 
[1] 0.004878676 
如 图 8-5 所 示 ，t 统 计量 小 于 临界 值 ~1.7459， 即 样本 数据 的 统计 量 落 入 了 拒绝 域 中 。 样 本 数据 
的 统计 量 对 应 的 P 值 也 小 于 0.05 的 显著 水 平 , 所 以 应 该 拒绝 原 假设 。 由 此 认为 该 区 域 的 土壤 是 酸 
性 的 。 












P 值 = 0.004879 
p = 0.05 





ee; 人 三 从 


临界 值 * = 一 1.7459 
样本 数据 t = --2.9326 


图 8-5 单 尾 检测 的 拒绝 域 与 接受 域 
以 上 单 尾 检验 过 程 也 可 以 使 用 ttest(0) 函 数 来 完成 ， 只 需 将 其 中 的 参数 alternative 的 值 置 为 
“less” 即 可 。 下 面 给 出 示例 代码 。 


> t.test(pH, mu = 7, alternative = "less") 





One Sample t-test 


data: pH 
t = -2.9326, df = 16,; p-value = 0.004879 
alternative hypothesis: true mean is less than 7 
95 percent confidence interval: 
-Inf 6.869083 
sample estimates: 
mean of x 
6.676471 


相 比 之 下 ， 讨 论 双 总 体 均 值 之 差 的 假设 检验 其 实 更 有 意义 。 因 为 在 统计 实践 中 ， 最 常 被 问 
到 的 问题 就 是 两 个 总 体 是 否 有 差别 。 例如, 医药 公司 研发 了 一 种 新 药 , 在 进行 双 言 对 照 实验 时 ， 
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新 药 常常 被 用 来 与 安慰 剂 做 比较 。 如 果 新 药 在 统计 上 不 能 表现 出 与 安慰 剂 的 显著 差别 ， 显 然 这 
种 药 就 是 无 效 的 。 再 比如 前 面 讨 论 过 的 饲料 问题 ， 当 我 们 对 比 两 种 饲料 的 效果 时 ， 必 然 要 问 及 
它们 之 间 是 否 有 差别 。 

同 在 研究 双 总 体 均 值 差 的 区 间 估 计 间 题 时 所 遵循 的 思路 一 致 ， 此 时 我 们 仍然 分 独立 样本 数 
据 和 配对 样本 数据 两 种 情况 来 讨论 。 

对 于 独立 样本 数据 而 言 ， 如 果 两 个 总 体 的 方差 cz 季 未知 ， 但 是 可 以 确定 oz=oz， 那 么 在 
此 情况 下 检验 统计 量 的 计算 公式 为 : 

Re Wt nd (Wl 

其 中 s "的 表达 式 本 章 前 面 曾经 给 出 过 ， 这 里 不 再 重复 。 另 外 ，t 分 布 的 自由 度 为 ni + nz 一 2。 


仍然 以 饲料 与 肉鸡 增 重 的 数据 为 例 ， 现 在 我 们 想 知 道 两 种 饲料 在 统计 上 是 否 有 差异 ， 为 此 
提出 原 假设 和 备 择 假设 如 下 : 


I 





Ho: Hi = Hi: Hi # KH2 


在 原 假设 前 提 下 ， 可 以 计算 检验 统计 量 的 数值 为 : 
五 - 丈 -1483 
1 1 16.447 


十 一 
nn 72 





Es 


这 仍然 是 一 个 双 尾 检测 ， 所 以 可 以 使 用 如 下 所 示 的 R 代码 来 求 得 检验 临界 值 : 


> Ot (0.025 Th dE(0a975: 1) 
[i] -2.364624 
[1] 2.364624 


因为 -2.365< 一 0.9019<2.365， 所 以 检验 统计 量 落 在 了 接受 域 中 。 更 进一步 ,还 可 以 在 R 中 使 
用 下 面 的 代码 来 算得 与 检验 统计 量 相 对 应 的 P 值 : 
> pt(-0.9019, 7 Lowervtail = 中) 
[1] 0.3970802 
因为 P 值 = 0.397， 大 于 0.05 的 显著 水 平 ， 所 以 我 们 无 法 拒绝 原 假 设 ， 即 不 能 认为 两 种 饲料 之 间 
存在 差异 。 以 上 计算 结果 与 本 章 前 面 由 ttest0 函 数 所 得 之 结果 是 完全 一 致 的 。 

对 于 独立 样本 数据 而 言 ， 若 两 个 总 体 的 方差 和 2 未 知 ， 且 oa? #o2， 那 么 在 此 情况 下 检 
验 统 计量 的 计算 公式 为 : 
(x1 — 3) — (ty — /2) 


Vsi/ma + s2/n2 


| 成 一 
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是 和 二 1) 





此 时 检验 统计 量 近 似 服从 一 个 自由 度 为 的 t 分 布 ,前面 已 经 给 出 过 ， 这 里 不 再 重复 。 


仍然 以 饲料 与 肉鸡 增 重 的 数据 为 例 ， 并 假设 两 个 总 体 的 方差 不 相等 ， 同 样 提出 原 假设 和 备 
择 假 设 如 下 : 











Ho: ti = p2, Hi: Hi # 2 
在 原 假设 前 提 下 ， 可 以 计算 检验 统计 量 的 数值 为 : 








X1 一 X2 65 一 79.83 一 14.83 
上 二 一 ~ 一 0.9357 
VSt/ni 十 Sm 21.66? ,23.872 15.854 
a 


这 仍然 是 一 个 双 尾 检测 ， 所 以 可 以 使 用 如 下 所 示 的 R 代码 来 求 得 检验 临界 值 : 

> gt(0.025, 4.503), ot(0,975, 4.50%) 

[1 2.658308 

[1] 2.658308 | 

因为 -2.658< 一 0.9357<2.658， 所 以 检验 统计 量 落 在 了 接受 域 中 。 更 进一步 , 还 可 以 在 R 中 使 
用 下 面 的 代码 来 算得 与 检验 统计 量 相 对 应 的 P 值 : 

> pt(-0.90357, 4.503," Lower.tail'= T)*2 

[11 0.3968415 

因为 P 值 = 0.3968， 大 于 0.05 的 显著 水 平 ， 所 以 我 们 无 法 拒绝 原 假 设 ， 即 不 能 认为 两 种 饲料 之 
间 存 在 差异 。 以 上 计算 结果 与 本 章 前 面 由 t.test0 函 数 所 得 之 结果 是 完全 一 致 的 。 

最 后 我 们 来 研究 双 总 体 均值 差 的 假设 检验 中 ， 样 本 数据 属于 配对 样本 的 情况 。 此 时 的 假设 
检验 其 实 与 单 总 体 均 值 的 假设 检验 基本 相同 ， 即 把 配对 样本 之 间 的 差 值 看 成 从 单一 总 体 中 抽取 
的 一 组 样本 。 在 大 样本 条 件 下 , 两 个 总 体 间 各 差 值 的 标准 差 o4 未 知 , 所 以 用 样本 差 值 的 标准 差 sa 
来 代替 ， 此 时 统计 量 的 计算 公式 为 : 











= 
区 二 
sa/Vn 


其 中 ，d 是 一 组 配对 样本 之 间 的 差 值 ，d 表 示 各 差 值 的 均值 ，k 表 示 两 个 总 体 中 配对 数据 差 的 均 
值 。 


在 样本 量 较 小 的 情况 下 ， 样 本 统计 量 就 服从 t 分 布 ， 故 应 使 用 t 统 计量 ， 其 计算 公式 为 : 





Pid 
sa/Vn 





这 里 t 统 计量 的 自由 度 为 n 一 1。 
继续 前 面 关于 双 总 体 均 值 差 中 配对 样本 的 讨论 ， 欲 检验 喂食 了 两 组 不 同 饲料 的 肉鸡 在 增 重 
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数据 方面 是 否 具 有 相同 的 均值 ， 现 提出 下 列 原 假 设 和 备 择 假设 


Ho: pi = Hz， Hi: ui # kz 
在 原 假设 前 提 下 ,很 容易 得 出 配对 差 的 均值 4 也 为 0 的 结论 ,于 是 可 以 计算 检验 统计 量 如 下 : 
6.67 6.67 


Som D0 


这 仍然 是 一 个 双 尾 检测 ， 所 以 可 以 使 用 如 下 所 示 的 R 代码 来 求 得 检验 临界 值 : 

> qt (0 :025 Sy dt (O973 

[LW] =2.570582 

| 

因为 3.235>2.571， 所 以 检验 统计 量 落 在 了 拒绝 域 中 。 更 进一步 ， 还 可 以 在 R 中 使 用 下 面 的 代 
人 码 来 算得 与 检验 统计 量 相 对 应 的 P 值 : 

> .2pt (S23597 37 Tower tail =: F)) 

[1] 0.02305406 

因为 P 值 = 0.02305， 小 于 0.05 的 显著 水 平 ， 所 以 应 该 拒绝 原 假设 ， 即 认为 两 种 饲料 之 间 存 在 差 
异 。 以 上 计算 结果 与 本 章 前 面 由 t.test0 函 数 所 得 之 结果 是 完全 一 致 的 。 


8.3 ” 极 大 似 然 估计 


正如 本 章 最 初 所 讲 的 ， 统 计 推 断 的 基本 问题 可 以 分 为 两 大 类 : 一 类 是 参数 估计 ; 另 一 类 是 
假设 检验 。 其 中 假设 检验 又 分 为 参数 假设 检验 和 非 参 数 假设 检验 两 大 类 。 本 章 所 讲 的 假设 检验 
都 属于 参数 假设 检验 的 范畴 。 参 数 估 计 也 分 为 两 大 类 ， 即 参数 的 点 估计 和 区 间 估 计 。 用 于 点 估 
计 的 方法 一 般 有 和 矩 方 法 和 极 大 似 然 估计 法 (MLE，Maximum Likelihood Estimate， 或 称 最 大 似 
然 估计 法 ) 两 种 。 


8.3.1 极 大 似 然 法 的 基本 原理 


极 大 似 然 这 个 思想 最 初 是 由 德国 著名 数学 家 卡尔 。 高 斯 (Carl Gauss) 提出 的 ,但 真正 将 其 

发 扬 光 大 的 则 是 英国 的 统计 学 家 罗 纳 德 。 费 希 尔 (Ronald Fisher)。 费 希 尔 在 其 1922 年 发 表 的 

一 篇 论文 中 再 次 提出 了 极 大 似 然 估计 这 个 思想 ， 并 且 首 先 探讨 了 这 种 方法 的 一 些 性 质 。 而 且 ， 

费 希 尔 当 年 正 是 凭借 这 一 方法 彻底 抽动 了 皮尔 进 在 统计 学 界 的 统治 地 位 。 从 此 开始 ， 统 计 学 研 
究 正 式 进入 了 费 希 尔 时 代 。 


为 了 引入 极 大 似 然 估计 法 的 思想 ， 先 来 看 一 个 例子 。 假 设 一 个 口袋 中 有 黑白 两 种 颜色 的 小 
球 ， 并 且 知 道 这 两 种 球 的 数量 比 为 3 : 1， 但 不 知道 具体 哪 种 球 占 3/4， 哪 种 球 占 1/4。 现 在 从 袋 
子 中 有 放 回 地 任 取 三 个 球 ， 其 中 有 一 个 是 黑 球 ， 那 么 试问 袋子 中 哪 种 球 占 3/4， 哪 种 球 占 1/4。 
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设 X 是 抽取 三 个 球 中 黑 球 的 个 数 ， 又 设 p 是 袋子 中 黑 球 所 占 的 比例 ， 则 有 X~B(3,p)， 即 : 
BE 的 问 (ed -se =0123 
当 X = 1 时 ， 不 同 的 p 值 对 应 的 概率 分 别 为 : 


3 3 IJN 9 
P(x=1p=3)=3x7x (7) = 去 





4 \4/ 二 三 
P( = - 习 =axfix 合 = 
ey 


由 于 第 一 个 概率 小 于 第 二 个 概率 ， 所 以 我 们 判断 黑 球 的 占 比 应 该 是 1/4。 
在 上 面 的 例子 中 ，p 是 分 布 中 的 参数 ， 它 只 能 取 3/4 或 者 1/4。 我 们 需要 通过 抽样 结果 来 决 
定 分 布 中 的 参数 究竟 是 多 少 。 在 给 定 了 样本 观察 值 以 后 再 去 计算 该 样本 的 出 现 概率 ， 而 这 一 概 
率 依赖 于 p 的 值 。 所 以 就 需要 用 p 的 可 能 取 值 分 别 去 计算 最 终 的 概率 ， 在 相对 比较 之 下 ， 最 终 所 
取 之 p 的 值 应 该 是 使 得 最 终 概率 最 大 的 那个 p 值 。 
极 大 似 然 估 计 的 基本 思想 就 是 根据 上 述 想 法 引申 出 来 的 。 设 总 体 含有 待 估 参 数 9, 它 可 以 取 
很 多 值 ， 所 以 就 要 在 6 的 一 切 可 能 取 值 之 中 选 出 一 个 使 样本 观测 值 出 现 的 概率 为 最 大 的 6 值 ， 记 
为 6， 并 将 此 作为 6 的 估计 ， 并 称 6 为 6 的 极 大 似 然 估计 。 
首先 来 考虑 X 属 于 离散 型 概率 分 布 的 情况 。 假 设 在 xX 的 分 布 中 含有 未 知 参数 9， 记 为 ; 
P(X=a)=p(ai0), i=1,2,…,0€0 
现 从 总 体 中 抽取 容量 为 n 的 样本 ， 其 观测 值 为 xj,x2,… ,xn， 这 里 每 个 xj; 为 a1, a2,… 中 的 某 个 
值 ， 该 样本 的 联合 分 布 为 : 
| [0) 
i=1 


由 于 这 一 概率 依赖 于 未 知 参数 9， 故 可 将 它 看 成 9 的 函数 ， 并 称 其 为 似 然 函 数 ， 记 为 : 








£0)=| [PGi0) 


i=1 
对 不 同 的 9， 同 一 组 样本 观察 值 xu x2,…, xn 出 现 的 概率 £L(0) 也 不 一 样 。 当 P(4) > P(B) 时 , 事件 
4 出 现 的 可 能 性 比 事件 8 出 现 的 可 能 性 大 ， 如 果 样 本 观察 值 xi, x2,…, xn 出 现 了 ， 当 然 就 要 求 对 应 
的 似 然 函 数 £(9) 的 值 达到 最 大 ， 所 以 应 该 选取 这 样 的 6 作为 9 的 估计 ， 使 得 : 

ZE(AY= max L(0) 


如 果 6 存 在 的 话 ， 则 称 6 为 9 的 极 大 似 然 估 计 。 
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此 外 ， 当 X 是 连续 分 布 时 ， 其 概率 密度 函数 为 p(x; 9)，6 为 未 知 参数 ， 且 6 e 9， 这 里 的 9 表 
示 一 个 参数 空间 。 现 从 该 总 体 中 获得 容量 为 n 的 样本 观测 值 x,x2,…, xs， 那 么 在 入 = 刀 , 且 二 
Ro J xn 时 联合 密度 函数 值 为 : 
|[ [ri;®) 
i=1 


它 也 是 9 的 函数 ， 也 被 称 为 似 然 函数 ， 记 为 : 


co) = | [pi0) 
i=1 
对 不 同 的 9， 同 一 组 样本 观察 值 Xi, x2,…, xn 的 联合 密度 函数 值 也 是 不 同 的 ， 因 此 应 该 选择 9 的 极 
大 似 然 估 计 6， 从 而 使 下 式 得 到 满足 : 
£(6) = max £(0) 


8.3.2 求 极 大 似 然 估计 的 方法 
当 函 数 关 于 参数 可 导 时 ， 可 以 通过 求 导 方法 来 获得 似 然 函数 极 大 值 对 应 的 参数 值 。 在 求 极 
大 似 然 估计 时 ， 为 求 导 方便 ， 常 对 似 然 函 数 L(9) 取 对 数 ， 称 1(9) = ln C(8) 为 对 数 似 然 函数 ， 它 
与 L(9) 在 同一 点 上 达到 最 大 。 根 据 微 积分 中 的 费 马 定理 ， 当 1(9) 对 9 的 每 一 分 量 可 微 时 ， 可 通过 
1(9) 对 9 的 每 一 分 量 求 偏 导 并 令 其 为 0 求 得 ， 称 
a1(6) _ 
90; SR 
为 似 然 方 程 ， 其 中 k 是 9 的 维 数 。 


下 面 就 结合 一 个 例子 来 演示 这 个 过 程 。 假 设 随机 变量 X~B(n,p)， 又 知 x1,x2,…,xn 是 来 自 X 
的 一 组 样本 观察 值 ， 现 在 求 P(X = T) 时 ， 参 数 p 的 极 大 似 然 估 计 。 首 先 写 出 似 然 函 数 : 





cm =| [rap 


i=1 


然后 对 上 式 左右 两 边 取 对 数 ， 可 得 : 


Im = balnp + (1—x) In(1 —p)] 


i=1 


=nln(l —p) + >》 ximp 一 In(1 一 六)] 


i=1 


将 1(p) 对 p 求 导 ， 并 令 其 导数 等 于 0， 得 似 然 方程 : 
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解 似 然 方程 得 ; 


可 以 验证 ， 当 方 = XX 时 ，9?1(p)/9p? < 0， 这 就 表明 六 = 无 可 以 使 图 数 取 得 极 大 值 。 最 后 将 题目 
中 己 知 的 条 件 带 入 ， 可 得 p 的 极 大 似 然 估计 为 = 六 = T/n。 

再 来 看 一 个 连续 分 布 的 例子 。 假 设 有 随机 变量 X~N(p,o?)，4 和 oa? 都 是 未 知 参数 ， 
Xxi,X2,… ,Xn 是 来 自 X 的 一 组 样本 观察 值 ， 试 求 k 和 oa? 的 极 大 似 然 估计 值 。 首 先 写 出 似 然 函 数 : 


1 n Dim)? 

Ca2) = e 27 一 (2rra2) 2.e 265 
VY 殉 
这 TO 


然后 对 上 式 左右 两 边 取 对 数 ， 可 得 : 





Luo = -ZinC2ro?) — DX -J 
将 LC 0a?) 分 别 对 4 和 a? 求 偏 导数 ， 并 令 它 们 的 导数 等 于 0， 于 是 可 得 似 然 方程 


ol 
oo 5 二 >w- =0 


ol(1,07) n > 
一 一 - 吉 + 二 > Sn 
1 三 


求解 似 然 方程 可 得 : 
n 
六 = 元 62 = 二 》 -a 
了 n ; 1 


而 且 还 可 以 验证 上 和 6? 可 以 使 得 1(p,o?) 达 到 最 大 。 用 样本 观察 值 蔡 代 后 便 得 出 4 和 a? 的 极 大 
似 然 估 计 分 别 为 : 


n 
A= = (一 站 = 中 
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因为 fi = 六 是 4 的 无 偏 估计 ， 但 6? = $2 并 不 是 ao? 的 无 偏 估计 ， 可 见 参 数 的 极 大 似 然 估 计 并 不 能 
确保 无 偏 性 。 

最 后 给 出 一 个 被 称 为 “不 变 原则 ”的 定理 : 设 6 是 9 的 极 大 似 然 估计 ，g(9) 是 9 的 连续 函数 ， 
则 9(6) 的 极 大 似 然 估 计 为 9(6)。 

这 里 并 不 打算 对 该 定理 进行 详细 证 明 。 下 面 将 通过 一 个 例子 来 说 明 它 的 应 用 。 假 设 随机 变 
量 X 服 从 参数 为 4 的 指数 分 布 ，x1,x2,…,xn 是 来 自 X 的 一 组 样本 观察 值 ， 试 求 4 和 E(X) 的 极 大 似 
然 估 计 值 。 首 先 写 出 似 然 函 数 : 


n 
£0 = | [ae = tee 


i=1 


然后 对 上 式 左右 两 边 取 对 数 ， 可 得 : 


n 
[CD = min4 一 47》 


i=1 


将 1() 对 4 求 导 ， 得 似 然 方程 为 : 


解 似 然 方程 得 : 
414= n/> Ni = = 
=1 


可 以 验证 它 使 1) 达 到 最 大 ， 而 且 上 述 过 程 对 一 切 样本 观察 值 都 成 立 ， 所 以 1 的 极 大 似 然 估 
计 值 为 = 1/8。 此 外 ，ECX) = 1/1， 它 是 1 的 函数 ， 其 极 大 似 然 估计 可 用 不 变 原则 进行 求解， 
即 用 4 带 入 ECX)， 可 得 ECX) 的 极 大 似 然 估计 为 8， 这 与 矩 法 估计 的 结果 一 致 


8.3.3” 极 大 似 然 估计 应 用 举例 

8.3.2 节 中 ， 我 们 演示 了 通过 解 方程 91(9)/909; = 0 从 而 求 得 参数 9 的 极 大 似 然 估计 值 的 基本 
方法 。 但 显而易见 的 是 ， 这 个 求解 过 程 非常 复杂 ， 本 节 将 通过 几 个 实例 来 演示 在 R 中 进行 极 大 
似 然 估 计 的 方法 。 

对 于 不 同 的 分 布 形式 而 言 ， 其 似 然 函数 的 形式 也 是 各 式 各 样 的 ， 所 以 最 后 得 到 的 似 然 方程 
解 〈 也 即 参数 的 极 大 似 然 估计 值 ) 的 表达 式 也 很 难 统一 。 所 以 很 难 找到 一 种 通用 的 方法 来 对 所 
有 情况 下 的 参数 做 极 大 似 然 估计 。 因 此 使 用 R 语言 进行 极 大 似 然 估 计 ， 往 往 是 先 要 确定 似 然 函 
数 的 表达 式 ， 然 后 再 借助 于 R 中 的 极 值 求解 函数 来 完成 。 
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在 单 参数 情况 下 ， 可 以 使 用 R 中 的 函数 optimize() 求 极 大 似 然 估计 值 ， 它 的 调用 格式 如 下 : 
optimize(t interval, lower = min(interval), 
upper = max(interval), maximum = FALSE) 
函数 optimize() 的 作用 是 在 由 参数 interval 指定 的 区 间 内 搜索 函数 的 极 值 。 这 个 区 间 也 可 以 由 参 
数 lower( 即 区 间 的 下 界 ) 和 upper( 即 区 间 的 上 界 ) 来 控制 。 默 认 情况 下 , 参数 maximum = FALSE 
表示 求 极 小 值 ， 如 果 将 其 置 为 TRUE 则 表示 求 极 大 值 。 


例如 ， 现 在 已 知 某 批 电子 元 件 的 使 用 寿命 服从 参数 为 4 的 指数 分 布 ，4 未 知 且 有 4 > 0。 现 在 
随机 抽取 一 组 样本 并 测 得 其 使 用 寿命 如 下 单位， 小 时 ): 


518 612 713 388 434 
请 尝试 用 极 大 似 然 估 计 这 批 产 品 的 平均 寿命 。 


8.3.2 节 的 最 后 已 经 求 出 了 指数 函数 的 对 数 似 然 函 数 形式 , 可 以 用 R 语言 代码 将 似 然 函数 写 
为 : 


> EE x funeotiom(lamdayl 
logLb = ri*log(lamda) ~ Lamda*esum (x) 
return (Logp) 
} 
然后 用 optimize() 求 使 得 似 然 函 数 取得 极 值 时 的 参数 4 的 估计 值 ， 结 果 如 下 : 
c(SL8.612,713,.388.434) 
length (x) 


>duration'<- optimize(f, et) maximum = TRUE) 
> duration 




















> 


外 站 


六 1 


Smaximum 

{Ll 0 O00L878689 

$objective 

[1] -36.39261 0 
由 此 便 求 出 了 参数 1 的 估计 值 为 0.001878689, 再 根据 8.3.2 节 最 后 得 出 的 结论 , 可 知 这 批 电 

子 元 件 的 平均 使 用 寿命 E(X) = 1/4， 即 有 : 

> 1/duration$smaximum 

Ll S322802 


而 且 这 个 结果 与 之 前 推导 的 结论 ， 当 X 服 从 指数 分 布 时 ，E(X) 的 极 大 似 然 估计 为 X， 并 由 此 算得 
的 结果 是 一 致 的 。 

再 来 看 一 个 稍微 复杂 的 例子 ， 这 次 要 估计 的 参数 将 有 多 个 。 首 先 在 R 中 导入 程序 包 MASS 
中 的 数据 geyser， 示 例 代 码 如 下 。 


> lipbprary (MASS) 


党 
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> attach (geyser) 
该 数据 集 是 地 质 学 家 记录 的 美国 黄石 公园 内 一 个 名 为 Old Faithful 的 喷泉 一 年 内 的 喷发 数据 , 数 
据 有 两 个 变量 ， 分 别 是 泉水 持续 涌 出 的 时 间 〈eruptions) 和 喷发 相隔 的 时 间 (waiting)， 在 这 个 
例子 中 我 们 将 仅 会 用 到 后 者 。 

现在 我 们 打算 对 变量 waiting 的 分 布 进行 拟 合 , 于 是 首先 通过 直方 图 来 大 致 了 解 一 下 数据 的 
分 布 形态 。 执 行 下 面 的 代码 ， 其 结果 如 图 8-6 所 示 。 


> hist/(waiting, freq = FALSE, col = "wheat") 
> lines(density(waiting), col = 'red', lwd = 2) 





Histogram of waiting 








图 8-6 数据 分 布 的 直方 图 
从 绘制 的 结果 来 看 ， 图 形 中 有 两 个 峰 ， 很 像 是 两 个 分 布 伙 加 在 一 起 而 成 的 结果 ， 于 是 可 以 
推断 分 布 是 两 个 正 态 分 布 的 混合 ， 故 用 下 面 的 函数 来 描述 ， 
p(X) = aN(x; 11,01) + (1 — oON(x; 12, cz) 
所 以 在 构建 的 模型 中 ， 需 要 估计 的 参数 有 5 个 ， 即 w、 丰 、m 、 应 和 ao 。 上 述 分 布 函数 的 对 
数 极 大 似 然 函数 为 : 
1= > logp() 
i=1 


接 下 来 ， 在 R 中 定义 对 数 似 然 函 数 ， 示 例 代码 如 下 。 由 于 在 后 面 将 要 使 用 的 极 值 求解 法 会 
在 迭代 过 程 中 产生 一 些 似 然 函 数 不 能 处 理 的 无 效 值 ， 尽 管 这 并 不 会 影响 到 最 终 的 求解 结果 ， 但 
是 为 了 避免 出 现 不 必要 的 警告 信息 ， 此 处 使 用 了 suppressWarnings() 函 数 来 忽略 那些 警告 信息 。 
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> LL<-function(params,data) { 
tli<-suppressWarnings (dnorm(data,params[2],params [3])) 
t2<-suppressWarnings (dnorm(data,params{[4],params[5])) 
LILx-Sumtlogq(tparame [Lilet (Lpasams [dll) te2)y 
return(l1) 


) 

为 了 进行 极 大 似 然 估 计 ， 下 面 将 调用 R 语言 中 的 程序 包 maxLik, 该 包 为 进行 极 大 似 然 估计 
提供 了 诸多 便利 , 在 多 参数 估计 时 可 以 考虑 使 用 它 。 在 进行 极 值 求解 时 , 可 以 通过 修改 maxLik() 
函数 中 的 参数 method 来 选择 不 同 的 数值 求解 方法 。 可 选 的 值 有 “NR”“BHHH”“BFGS”“NM” 
和 “SANN” 五 种 ， 默 认 情 况 下 函数 将 使 用 默认 值 “NR”， 即 采用 Newton-Raphson 算法 。 
> Llibrary( mal”) 
> mie </maxbik(loogbik a Lb start "el(0 So0 L000 LO0) data=waiting) 


> mle 
Maximum Likelihood estimation 





























Newton-Raphson maximisation, 8 iterations 

Return code 2: successive function values within tolerance limit 
Log-Likelihood: -1157.542 (5 free parameter(s)) 

Eestimatet{s) sy 0.3075935, 54.20265, 4.9051998 80.36031 7T.507638 


最 后 通过 图 形 来 评估 一 下 采用 极 大 似 然 法 所 估计 出 来 的 参数 拟 合 效果 ， 示 例 代码 如 下 。 
> a <- mleS$estimate[11] 
> ml<-mle$Sestimate[2]; sl<- mles$estimate[3] 
> mu2<-mle$Sestimate[4]; s2<- mleSestimate[5] 
> 


xXx<-seq(40,120,1length=100) 
f<-arxdnorm(X,mul,sl)+(1-a)*dnorm (X,mu2,s2) 


histl(waltino, tred = FALSE, col = wheat’) 
lines (density (waliting), col = rad Lty = 2) 
>: lines {Xf, col = Alae 


We 


> text.legend = c(“Density Line”,”Max Likelihood”) 

> legend( “topright”, legend = text.legend, lty=€6(2,1), 

十 了 OOTEedG "blue”)) 

执行 以 上 代码 ， 结 果 如 图 8-7 所 示 ， 其 中 实 线 是 基于 估计 参数 绘制 的 数据 分 布 曲 线 ， 虚 线 是 系 
统 自动 生成 的 密度 曲线 ， 可 见 拟 合 效果 还 是 比较 理想 的 。 
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Histogram of waiting 


Density Line 
—— Max tikelihood 


图 8-7 极 大 似 然 法 拟 合 效果 
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第 名 章 


OT 


非 参数 检验 方法 


非 参 数 统计 是 一 种 不 要 求 变量 值 为 某 种 特定 分 布 和 不 依赖 某 种 特定 理论 的 统计 方法 ， 或 者 
是 在 不 了 解 总 体 分 布 及 其 全 部 参数 的 情况 下 的 统计 方法 。 实 际 工 作 中 ， 有 许多 资料 常 不 能 确定 
或 假设 其 总 体 变量 值 的 分 布 ， 因 此 参数 统计 不 宜 使 用 ， 不 知道 总 分 布 ， 就 不 能 比较 参数 ， 而 只 
能 比较 非 参 数 。 那 些 总 体 分 布 服 从 正 态 分 布 或 总 体 分 布 已 知 条 件 下 进行 的 统计 检验 就 是 参数 检 
验 。 总 体 分 布 不 要 求 服 从 正 态 分 布 或 总 体 分 布 情况 不 明 时 ， 用 来 检验 数据 资料 是 否 来 自 同一 个 
总 体 的 统计 检验 方法 就 是 非 参数 检验 方法 。 


9.1 列 联 分 析 


列 联 分 析 是 利用 列 联 表 (Contingency Table ) 来 研究 两 个 分 类 变量 之 间 关 系 的 统计 方法 。 以 
皮尔 逊 提 出 的 卡 方 检 验 为 代表 列 联 分 析 技 术 在 数据 分 析 领域 具 有 非常 广泛 的 应 用 。 


9.1.1 类别 数据 与 列 联 表 


1912 年 4 月 15 日 豪华 巨轮 泰坦 尼克 号 在 她 的 处 女 航 中 因 不 幸 与 冰山 相 撞 而 沉 入 冰冷 的 
大 西洋 。 这 场 空 前 的 海难 令 世 界 震 动 。 根 据 维基 百科 所 提供 的 数据 ， 当 时 船上 有 908 名 船员 和 
1316 名 乘客 ， 共 计 2224 人 。 事 故 发 生 后 ， 共 有 710 名 乘客 获救 ， 约 占 总 人 数 的 32%。 具 体 伤 
亡 统 计数 据 请 见 表 9-1。 


表 9-1 泰坦 尼克 号 伤亡 统计 
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数据 是 冰冷 和 残酷 的 ， 但 它 背 后 的 故事 却 是 值得 我 们 深入 思考 的 。 比 如 死亡 是 否 与 性 别 或 
年 龄 有 关 ? 面 对 死 亡 ， 人 是 否 有 高 低 贵贱 之 分 ? 面 对 突 如 其 来 的 灾难 ， 船 员 是 否 忠于 职守 ? 这 
些 看 似 干 首 的 数据 是 否 能 够 反映 当时 人 们 的 价值 取向 以 及 面 对 死 亡 的 态度 ? 基于 本 章 的 学 习 ， 
相信 读者 应 该 有 能 力 解 开 这 些 疑 问 。 


我 们 都 知道 ， 统 计数 据 有 类 别 型 数据 和 数值 型 数据 之 分 。 对 于 类 别 型 数据 来 说 ， 尽 管 最 终 
结果 也 是 以 数值 来 表示 的 ， 但 不 同 数值 所 描述 的 对 象 特征 却 是 彼此 区 别 的 。 例 如 ， 在 泰坦 尼克 
号 伤亡 情况 分 析 的 例子 中 ， 若 想 讨 论 死亡 是 否 与 性 别 有 关 ， 就 可 以 把 成 年 人 群体 分 成 男性 和 女 
性 两 类 ， 并 用 1 来 表示 男性 ， 而 用 0 来 表示 女性 。 如 果 想 研究 死亡 是 否 与 舱位 有 关 ， 又 可 将 乘客 
分 为 头等 舱 乘 客 〈 用 1 表示 )、 二 等 舱 乘客 〈 用 2 表示 ) 和 三 等 舱 乘 客 (用 3 表示 )。 显 然 ， 对 于 
上 述 问题 的 分 析 ， 是 以 统计 数据 的 汇总 分 类 为 基础 的 。 而 且 为 了 便于 后 续 分 析 工 作 的 开展 ， 选 
择 一 种 有 效 的 方式 来 对 数据 进行 组 织 也 很 有 必要 ， 这 种 有 效 的 方式 就 是 所 谓 的 列 联 表 。 

列 联 表 是 由 两 个 以 上 的 变量 进行 交叉 分 类 的 频数 分 布 表 。 例 如 ， 在 研究 泰坦 尼克 号 中 乘客 
的 舱位 与 其 最 终 是 否 获救 之 间 关 系 的 问题 上 ， 可 以 建立 如 表 9-2 所 示 的 列 联 表 。 


表 9-2 列 联 表示 例 











表 9-2 中 的 行 (row) 是 生存 变量 ， 它 被 划分 成 2 类 : 获救 或 者 给 难 ; 表 中 的 列 (column) 
是 舱位 变量 , 它 被 划分 为 3 类 , 即 头等 舱 、 二 等 舱 和 三 等 舱 。 因 此 表 9-2 是 一 个 2 x 3 的 列 联 表 。 
表 中 的 每 个 数据 ， 都 反映 着 来 自生 存 变 量 和 舱位 变量 两 个 方面 的 信息 。 列 联 表 是 进行 列 联 分 析 
的 基础 ，9.1.2 节 我 们 就 将 通过 实际 的 用 例 来 介绍 基于 检验 的 列 联 分 析 方 法 。 


9.1.2 皮尔 还 《Pearson) 的 卡 方 检验 
皮尔 逊 的 卡 方 统计 量 〈Pearson's Chi-Square Statistic)， 或 者 简写 成 x* 统 计量 ， 是 由 统计 学 
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家 皮尔 逊 于 1899 年 提出 的 用 于 检验 实际 分 布 与 理论 分 布 配合 程度 ， 即 配合 度 检 验 的 统计 量 。 皮 
尔 逊 认为 ， 不 管理 论 分 布 构造 得 如 何 好 ， 筷 与 实际 分 布 之 间 总 存在 着 或 多 或 少 的 差异 。 这 些 差 
异 可 能 是 由 于 观察 次 数 不 充 分 、 随 机 误差 太 大 而 引起 的 ， 也 可 能 是 因 所 选 配 的 理论 分 布 本 身 与 
实际 分 布 有 实质 性 差异 而 导致 的 。 要 甄别 导致 差异 的 原因 ， 还 需要 用 一 种 方法 来 检验 。 为 此 ， 
皮尔 逊 提 出 了 著名 的 Xx* 统 计量 ， 用 来 检验 实际 值 的 分 布 数 列 与 理论 值 数列 是 否 在 合理 范围 内 相 
符合 ， 换 旬 话 说 ，X” 统 计量 可 被 用 以 测定 观察 值 与 期 望 值 之 间 的 差异 显著 性 。 卡 方 检验 提出 后 
得 到 了 广泛 的 应 用 ， 在 现代 统计 理论 中 占有 重要 地 位 。 


卡 方 统计 量 由 各 项 实际 观测 数值 与 理论 分 布 数值 之 差 的 平方 除 以 理论 数值 ， 然 后 再 求 和 而 
得 出 的 。 若 用 万 表示 观察 值 频数 ， 用 万 表示 期 望 值 频数 ，X 统计 量 可 以 写 为 : 


x = > 人 (太一 大) 


作为 一 种 统计 方法 ，X a 对 定 类 变量 进行 分 析 ， 
Nie 题 进行 转化 , 通过 考察 频数 与 其 期 望 频数 之 间 的 吻合 程度 , 达到 检验 目的 。X“ 检 

还 依赖 于 Xx” 分 布 的 自由 度 ， 自 由 度 定义 为 类 别 数量 与 限制 数量 之 差 ， 具 体 计算 我 们 在 后 续 结 
we 子 来 加 以 说 明 。 


假设 有 一 枚 角子 ， 投 找 120 次 并 记录 其 结果 如 表 9-3 所 示 ， 请 问 该 枚 般 子 是 否 是 无 偏 的 ? 
表 9-3 ” 搓 骨 子 的 结果 


数 13 
首先 提出 原 假设 和 备 择 假设 。 

。 Ho: 般 子 是 无 偏 的 ， 即 所 有 投 撕 结 果 出 现 的 可 能 性 大 致 是 均等 的 。 

。 Hi: 原 假 设 是 错误 的 ， 即 某 些 投掷 结果 的 可 能 性 较 其 他 结果 更 大 。 

在 诛 假 设 基础 上 ， 可 以 得 到 期 望 的 投掷 结果 如 表 9-4 所 示 。 














































































































表 9-4 ”期望 投掷 频数 








据 此 可 以 计算 Xx” 统计 量 如 下 。 
(25 一 20)? = 20)? .= 20)? a 20)? = 20)? .03207 
20 20 20 20 20 20 


=1.25 十 0.20 十 3.20 十 0+0.80 十 2.45 = 7.90 
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因此 P 值 应 该 是 Pr(X?>7.90)， 其 中 X? 旦 性。 显然 ， 般 子 找 出 后 可 能 的 结果 有 6 种 ， 而 在 我 们 的 
例子 中 限制 条 件 的 数量 只 有 1 个 ， 即 所 有 观察 频数 之 和 等 于 120， 所 以 自由 度 为 5。 查 询 统 计 表 
可 知 ，P 值 将 介 于 0.1 和 0.25 之 间 ， 因 此 在 5% 的 水 平 下 我 们 无 法 拒绝 原 假设 。 


在 R 中 ， 自 然 无 须 这 样 烦琐 的 计算 ，chisq.test() 函 数 将 为 我 们 执行 闪 检 验 。 该 函数 以 记录 
观测 频数 的 向 量 为 输入 ， 而 且 默 认 情 况 下 以 均等 占 比 为 原 假 设 。 对 于 掷 仍 子 的 例子 ， 即 假设 掷 
出 每 个 面 的 比例 都 是 1/6。 下 面 给 出 示例 代码 。 
>°"Chisgq test (cS(25r 8 2 207 lOc 3)) 

chi-~squared test for given ope 
data:” cl25, LT8r ,28 207 L670 13) 
X-squared = 7.9, df = 5, p-value = 0.1618 
因此 得 到 P 值 为 0.1616。 我 们 不 能 得 出 骨 子 是 有 偏 的 这 个 结论 。 注 意 如 果 要 修改 默认 为 均等 占 
比 的 原 假 设 ， 可 以 通过 调整 函数 中 的 参数 p 来 实现 ， 具 体 细节 请 参阅 R 的 帮助 文档 ， 这 里 不 再 
资 述 。 

撕 角 子 的 例子 其 实 只 是 让 我 们 体验 了 一 下 X” 检 验 的 基本 思想 ， 引 入 列 联 表 之 后 我 们 将 有 能 
力 处 理 更 为 复杂 的 例子 。 注 意 找 骨 子 的 例子 中 所 给 出 的 表格 并 不 是 列 联 表 ， 因 为 它 并 未 涉及 多 
分 类 变量 之 间 的 交叉 。 

下 面 就 来 看 一 个 基于 列 联 表 的 例子 。 众 所 周知 ， 妇 女 怀孕 期 间 饮酒 或 抽烟 将 会 对 胎儿 造成 
不 良 影响 。 有 人 认为 饮酒 和 吸烟 之 间 存 在 某 种 联系 ， 例 如 通常 酌 酒 的 人 都 有 抽烟 的 嗜好 。 理 解 
二 者 之 间 的 关系 对 于 研究 孕妇 相关 行为 给 胎儿 可 能 带 来 的 影响 十 分 重要 。1984 年 ， 研 究 人 员 对 
452 名 母亲 进行 了 调查 , 根据 她 们 在 得 知 自己 怀孕 前 的 酒精 和 烟草 摄 入 量 得 出 了 如 表 9-5 所 示 的 
列 联 表 。 请 问 饮 酒 和 吸烟 之 间 是 否 有 关联 ? 


表 9-5 饮酒 与 吸烟 的 统计 数据 











0.01~0.10 


0 | a | 
| 0 | 5 | 
| | 

列 联 表 是 两 个 因素 (变量) 从 模 向 和 纵向 交叉 而 形成 的 ， 因 此 以 列 联 表 为 基础 的 假设 检验 
中 ， 原 假设 加 通常 为 两 个 因素 之 间 是 没有 联系 的 ， 即 彼此 独立 的 。 相 应 地 ， 各 择 假设 万 ,为 原 假 
设 是 错误 的 。 在 掷 般 子 的 例子 中 ， 轴 确定 了 每 个 可 能 输出 的 概率 ， 彼 时 仅仅 指定 了 概率 之 间 
的 关系 。 对 于 饮酒 和 吸烟 关系 的 例子 ， 我 们 可 以 提出 下 列 原 假设 和 备 择 假 设 。 








酒精 摄 入 
(oz/d) 
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。 Ho: 吸烟 和 饮酒 之 间 没 有 关系 ， 即 二 者 彼此 独立 。 

。 Hi1: 原 假设 是 错误 的 。 

回想 一 下 概率 论 中 的 有 关 结 论 ， 即 如 果 事 件 4 和 8B 彼 此 独立 ， 则 当 且 仅 当 Pr(4 nN 8B) = 
Pr(4) x Pr(B)。 所 以 如 果 原 假设 为 真 ， 那 么 对 于 本 例 而 言 必 然 有 “酒精 日 均 摄 入 超过 1 一 司 
并 且 尼 古 丁 日 均 摄 入 超过 16 毫 克 的 概率 ”就 等 于 Pr( 酒 精 日 均 摄 入 >1 僵 司 ) x 
Pr( 尼 古 丁 日 均 摄 入 >16 毫克 )。 


这 个 原理 也 为 我 们 计算 期 望 值 列 联 表 提 供 了 依据 ， 相 应 的 期 望 值 就 等 于 行 和 与 列 和 之 积 再 
除 以 表 中 数据 总 和 。 例 如 ， 从 表 9-5 中 可 知 ， 有 90 名 母亲 日 均 饮 酒量 超过 1 理 司 ， 在 原 假设 基 
础 上 ， 则 其 中 应 该 有 83/452 的 人 日 均 尼古丁 摄 入 量 超过 16 毫 克 。 因 此 相应 的 期 望 值 就 应 该 是 
90 x 83/452 = 16.53。 按 照 此 方法 ， 最 终 可 以 得 出 期 望 值 的 列 联 数据 如 表 9-6 所 示 。 由 此 可 以 
算得 x? 统计 量 如 下 。 

(105 一 82.73)2 (58— 51.12)? 17 — 16.53)? 
区 0 


表 9-6 ”饮酒 与 吸烟 的 期 望 数 据 


= 42.252 


酒精 摄 入 
(oz/d) 





再 来 考虑 一 下 用 于 检验 的 xX 分布 的 自由 度 ， 对 于 列 联 表 而 言 ， 一 个 通常 的 计算 公式 为 : 
df =(r-1)x(c—-1)=rc-(r+c—1) 
其 中 r 表 示 行 数 ，c 表 示 列 数 ， 所 以 rc 就 是 表 中 所 给 出 的 类 别 总 数 。 行 数 r 同 时 给 出 了 7 个 限制 条 
件 ， 列 数 c 同 时 给 出 了 c 个 限制 条 件 。 但 总 行 和 = 总 列 和 = 表 中 数值 总 和 ， 所 以 在 计算 由 行 限制 与 
列 限制 给 出 的 限制 条 件数 目 时 , 有 一 个 重复 计算 , 我 们 应 该 将 其 减 去 。 最 终 限 制 数 量 为 r+c 一 1。 
针对 当前 我 们 所 讨论 的 问题 ， 自 由 度 为 : 
df =(4—1)x(3—-1)=6 
查 表 可 知 窗 的 临界 值 ， 由 此 得 到 的 P 值 小 于 0.001。 计 算 P 值 的 代码 如 下 。 


> pchisq(42.252,6, lower.tail=F) 
[3896 er 


整个 Xx* 检 验 执行 过 程 的 R 代码 如 下 。 
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> alcohol .by. nicotine <- matrix(c{(1i0S5 7, 115 

DB S13 

a eC 27 

+t.5717 L647), nrow = 4 DYEOW=: TRUE) 
> chisq.test(alcohol .by.nicotine) 


Pearson’s Chi-squared test 
Gata: alcohol.by.nicotine 
X-squared = 42.2521, df = 6, p-value = 1.640e-07 


由 此 ， 我 们 便 可 以 果断 地 拒绝 原 假设 ， 并 推 得 结论 ， 饮酒 与 吸烟 之 间 确 实 有 联系 。 


9.1.3 ” 列 联 分 析 应 用 条 件 

在 卡 方 检验 中 使 用 xX? 分 布 来 获取 P 值 ， 其 实 隐 含 地 使 用 了 一 个 条 件 ， 即 用 正 态 分 布 来 近似 
二 项 分 布 。 为 了 保证 卡 方 检验 的 有 效 性 ， 下 列 执行 条 件 应 当 予 以 满足 。 

。 每 个 单元 格 中 的 数据 都 是 确切 的 频数 〈 而 非 占 比 )。 

。 类 别 不 可 相互 交织 。 

。 所 有 的 期 望 频数 应 当 都 不 小 于 1。 

。 至 少 80% 的 期 望 频数 都 应 该 不 小 于 5。 
如 果 上 述 条 件 无 法 都 满足 ， 我 们 就 不 得 不 通过 合并 单元 格 的 方法 来 满足 这 些 条 件 。 但 合并 单元 
格 的 做 法 也 会 令 自由 度 下 降 ， 进 而 削弱 检验 的 效力 。 

来 看 一 个 研究 铝 元 素 摄 入 与 阿尔 北海 默 病 之 间 关 系 的 例子 。 研 究 人 员 选 择 了 一 组 阿尔 北海 
默 病 患者 。 作 为 对 照 实验 ， 又 选择 了 一 组 没有 患 阿 尔 兹 海 默 病 的 人 ， 但 其 他 方面 与 实验 组 中 的 
病 患 非常 形似 。 参 与 实验 的 对 象 ， 他 们 的 含 铝 抗 酸 剂 使 用 情况 如 表 9-7 所 示 。 


表 9-7 含 铝 抗 酸 剂 的 使 用 数据 
含 铝 抗 酸 剂 用 量 


阿尔 北海 默 病 患者 
控制 组 
下 面 的 代码 对 上 述 数据 执行 了 以 皮尔 逊 卡 方 检验 为 基础 的 列 联 分 析 。 其 中 将 chisq.test() 函 
数 的 输出 赋 给 了 一 个 对 象 ， 即 a.by.a.test。 而 且 我 们 用 一 个 括号 来 把 赋值 语句 括 了 起 来 ， 如 果 不 
这 样 做 ， 程 序 将 仅 会 对 函数 的 结果 进行 存储 但 并 不 会 将 其 输出 。 
> aluminium.by.alzheimers <- matrix(c(ll2y SS 8 


+114, 9, 3, 2), nrow=2, byrow = TRUE) 
> (a.by.a.test <- chisg.test (aluminium.by.alzheimers)) 
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Pearson's Chi-sgquared 七 es 七 





data: aluminium.by.alzheimers 
X-squared = 7.1177, df = 3, p-value = 0.06824 


下 面 我 们 想 检 查 一 下 每 个 期 望 频数 的 大 小 ， 于 是 在 R 中 输入 下 面 的 代码 。 
> a.by.a.test$expected 

I a eh i 
和 6 4 5 
2 6 4 5 
易 见 8 个 期 望 频数 中 有 2 个 都 小 于 5， 因 此 得 到 的 P 值 可 能 不 是 十 分 可 靠 。 尽 管 它 也 比较 小 ,但 
是 在 5% 的 显著 水 平 下 ， 并 不 显著 。 

为 了 说 明 这 个 问题 ， 我 们 可 以 通过 多 种 方法 来 陈述 这 个 问题 。 其 中 一 种 方法 就 是 使 用 模拟 
的 方法 来 获得 一 个 更 加 精确 的 P 值 ， 例 如 : 


> chisq.test(aluminium.by.alzheimers, simulate.p.value = TRUE) 


Pearson's Chi~squared test with simulated p-value 
(based on 2000 replicates) 


data: aluminium.by.alzheimers 
XxX-squared = 7.1177, df = NA p-value = 0.06047 


当 我 们 将 参数 simulate.p.value 的 值 置 为 TRUE 时 ， 就 表示 要 通过 蒙特 卡 洛 (Monte Carlo) 模拟 
的 方法 来 计算 P 值 。 具 体 来 说 ， 这 个 过 程 会 产生 2000 个 随机 表 的 独立 数据 ， 并 以 此 来 评估 观察 
值 表 在 原 假设 前 提 下 的 极端 性 。 通 过 调整 参数 B 的 值 〈 默 认 情 况 下 为 2000)， 可 以 改变 蒙特 卡 
洛 模拟 的 重复 量 。 


另外 一 种 可 以 把 问题 陈述 清楚 的 方法 是 对 数据 进行 重新 分 类 。 可 能 更 有 问题 的 观察 值 位 于 
那些 表示 使 用 了 中 等 剂量 抗 酸 剂 的 单元 格 ， 所 以 将 中 等 和 高 等 两 类 数据 进行 合并 是 比较 合理 的 
做 法 。 于 是 便 得 到 了 如 表 9-8 所 示 的 结果 。 


表 9-8 合并 后 的 数据 


阿尔 兹 海 默 病 患 者 





然后 再 以 此 为 基础 执行 卡 方 检验 ， 于 是 可 得 下 面 的 结果 。 


> aluminium.by.alzheimers <- matrix(c(112, 3, 13;, 
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+114, 9, 5), nrow=2, byrow = TRUE) 
> (a.by.:a.test <- chisq.test(aluminium.by.alzheimers)) 


Pearson's Chi-squared test 


data: aluminium.by.alzheimers 
XxX-squared = 6:5733, df = 2, p-value = 0.03738 
> a.by.a.test$expected 
Lt 
L363 
lnbevlS76 9 
可 见 所 有 的 期 望 频数 都 已 经 不 再 小 于 5 了 ， 此 时 给 出 的 P 值 为 0.03738， 因 此 我 们 可 以 得 出 
抗 酸 剂 的 使 用 和 阿尔 获 海 默 病 之 间 存 在 某 种 联系 。 当 然 ， 将 低 等 和 中 等 两 类 数据 进行 合并 也 比 
较 合理 ， 读 者 不 妨 尝试 这 种 做 法 ， 然 后 再 观察 一 下 其 对 最 终结 果 的 影响 。 


9.1.4 ” 费 希 尔 (Fisher) 的 确切 检验 


如 果 在 2 x 2 的 列 联 表 中 观察 值 太 小 ,xX?* 检 验 因 近 似 程度 较 差 ， 易 导致 分 析 的 偏 性 (尤其 是 
当 所 得 概率 接近 检验 水 准时 )。1934 年 ， 统 计 学 家 费 希 尔 提出 了 一 种 新 的 检验 方法 ， 即 费 希 尔 
确切 检验 (Fisher's exact test)， 这 是 一 种 专门 用 来 对 2 x 2 的 列 联 表 进行 检验 的 方法 。 该 方法 不 
属于 xX? 检验 的 范畴 ， 但 可 作为 2 x 2 表格 的 xX? 检验 的 补充 。 


假设 在 一 项 有 47 名 学 生 参 与 的 调查 中 , 研究 人 员 试 图 检验 性 别 与 惯用 左手 还 是 右手 之 间 是 
和 否 存在 联系 。 调 查 数据 见 表 9-9， 从 中 易 见 女生 中 惯用 左手 的 比例 为 1/31 = 0.032， 该 值 小 于 男 
生 中 惯用 左手 的 比例 4/16 = 0.25。 为 了 检验 这 两 个 比例 是 否 有 显著 的 不 同 ， 自 然 会 想到 使 用 之 
前 介绍 的 好 检验 ， 但 是 4 个 单元 格 中 有 2 个 所 包含 的 期 望 值 都 小 于 5。 根 据 之 前 的 讨论 ， 我 们 
知道 此 时 用 xX” 检验 并 不 明智 。 


表 9-9 关于 惯用 左手 还 是 右手 的 调查 





费 希 尔 确切 检验 假设 我 们 仅 知 道 2 x 2 列 联 表 中 边界 上 的 加 和 值 , 但 对 表 中 的 详细 数据 一 无 
所 知 。 此 时 可 以 得 到 如 表 9-10 所 示 的 一 张 残缺 表 。 
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表 9-10 ”残缺 的 列 联 表 








在 仅 知道 上 面 这 些 边缘 加 和 值 的 情况 下 ， 其 实 可 以 推 得 总 共 的 可 能 情况 有 6 种 ， 如 表 9-11 
所 示 。 这 是 因为 调查 数据 中 左 撤 子 的 数量 一 共 只 有 5 个 , 那么 表格 中 左上 角 位 置 的 取 值 就 仅 可 能 
是 0(、1、2、3、4、5 这 几 种 情况 。 据 此 我 们 就 可 以 推出 全 部 可 能 的 结果 。 


hd 9-11 人生 





注意 到 在 表 9-11 中 我 们 还 计算 出 了 每 一 种 可 能 情况 的 概率 。 费 希 尔 确切 检验 的 基础 是 超 几 
何 分 布 ， 超 几何 分 布 是 统计 学 上 的 一 种 离散 型 概率 分 布 。 假 设 N 件 产品 中 有 M 件 次 品 ， 不 放 回 
的 抽检 中 ， 抽 取 n 件 时 得 到 X = k 件 次 品 的 概率 分 布 就 是 超 几何 分 布 ， 它 的 概率 质量 函数 PMF 


Cohen 
CN 
对 应 到 表 9-12 中 , 现在 有 a 十 b+c 十 d= N 件 产品 ， 其 中 次 品 有 a 十 b 件 ， 现在 进行 不 放 回 的 抽 
检 ， 共 抽取 了 a + c 件 产品 ， 其 中 得 到 X = a 件 次 品 的 概率 即 为 : 
CarpCera _ (a+b)!(c+d)!l(a+o)!(b+d)! 


DD se) alb!cldin! 


P(X =k) = 


表 9-12 费 希 尔 确切 检验 概率 的 推断 







a+b 
[3 d 已 十 区 





a+c b+d a+b+c+d=N 


于 是 表 9-12 中 的 各 个 概率 值 可 以 使 用 R 中 的 内 蔡 分 布 函数 来 计算 ， 代 码 如 下 。 


> dhyper (CO 2 3 dS) .3 3 
[1] 0.002847571 0.036781124 0.169759032 
[4] 0.351643709 0.328200795 0.110767768 


由 于 超 几 何 概率 分 布 的 非 对 称 性 ， 一 个 双 尾 的 P 值 并 没有 被 唯一 和 确切 地 定义 。 但 在 统计 
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me 


分 析 中 ， 双 尾 的 P 值 更 为 常用 。 一 种 计算 方法 是 将 两 个 方向 上 的 单 尾 P 值 都 算出 来 ， 然 后 将 其 中 
的 较 小 者 乘 以 2 作为 双 尾 P 值 使 用 。 男 外 一 种 方法 ， 也 是 R 中 所 使 用 的 ， 就 是 将 输出 结果 中 小 于 
等 于 观察 值 概率 的 所 有 概率 进行 加 总 。 在 这 种 方法 中 ， 比 观察 值 概率 更 小 的 概率 值 被 看 成 是 比 
远离 原 假设 的 观察 值 更 加 极端 ， 这 也 与 我 们 对 P 值 的 定义 相 吻 合 。 例 如 ， 在 当前 所 讨论 的 问题 
中 ，P 值 就 应 该 为 : 
> 0.002847571 + 0.036781124 
[1] 0.03962869 
在 5% 的 显著 水 平 下 ,我 们 可 以 拒绝 (惯用 哪 只 手 与 性 别 无 关 的 ) 原 假设 ， 并 认为 女生 中 左 撤 子 
的 比例 要 低 于 男生 中 左 撤 子 的 比例 。 

在 R 中 ,我 们 可 以 用 下 面 的 代码 来 执行 费 希 尔 确切 检验 ， 易 见 其 中 得 出 的 P 值 与 之 前 我 们 
算得 的 结果 一 致 。 


> hangdedness < matrix(e (ly 39， 和 2 nrows= 2, byrow 二 TRUE) 
> fisher.test (handedness) 











Fisher's pxact Test for Count Data 


data: handedness 

p-value = 0.03963 

alternative hypothesis; true odds ratio is not equal to l 
95 percent confidence interval: 

0.001973399 1.206146041 

sample estimates: 

oods ratio 

0.1055741 


9.2 符号 检验 


有 学 者 曾经 利用 统计 学 的 方法 对 《红楼 梦 》 一 书 的 原作 者 和 续 者 是 否 是 同一 人 这 个 问题 展 
开 了 研究 。 研 究 人 员 针 对 《红楼 梦 》 中 人 物 对 孔子 及 其 著作 的 误 贬 态度 进行 了 比较 ， 把 误 、 中 
性 、 贬 3 种 态度 分 别 用 1、0、 一 1 来 表示 ， 然 后 用 符号 检验 法 来 进行 判断 。 例 如 ， 在 原 书 第 三 回 
中 ， 贾 宝玉 曾 说 :“ 除 《四 书 》 外 ， 杜 撰 的 太 多 ， 偏 只 我 是 杜撰 不 成 ? ”这 里 对 《四 书 》 是 褒扬 
态度 ， 因 此 用 1 表示 。 此 外 ， 研 究 人 员 还 统计 了 47 个 虚词 在 各 章 中 出 现 的 频率 和 句子 长 度 ， 用 
符号 检验 法 做 出 了 前 80 回 和 后 40 回 不 是 一 人 所 写 的 判断 。 

符号 检验 是 一 种 使 用 正 负 号 来 检验 不 同 假设 的 非 参数 检验 方法 ， 它 可 以 检验 的 假设 主要 是 
涉及 单一 总 体 中 位 数 的 假设 和 配对 样本 数据 的 假设 。 当 我 们 执行 符号 检验 时 ， 即 认为 样本 已 经 
被 随机 地 选取 了 ， 而 且 我 们 并 不 要 求 样本 数据 来 自 一 个 具有 特殊 分 布 的 总 体 。 





es 
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es 


符号 检验 最 核心 的 思想 就 是 分 析 数 据 中 正 负 号 出 现 的 频率 , 并 确定 它们 是 否 有 显著 的 差异 。 
例如 , 在 《红楼 梦 》 的 例子 中 , 如 果 前 80 回 中 , 出 现 了 100 次 对 孔子 及 其 著作 或 窜 或 贬 的 评价 ， 
其 中 有 51 次 是 褒扬 ，49 次 是 贬损 ， 从 常识 来 看 我 们 并 没有 十 足 的 把 握 断 言 作者 对 孔子 及 其 著 
作 的 态度 是 褒扬 的 ， 因 为 100 次 态度 表现 中 ，51 次 褒扬 并 不 显著 。 但 如 果 有 99 次 态度 表现 都 


是 襄 扬 的 ， 这 就 显得 很 显著 了 。 给 定 一 组 数据 ， 如 何 从 统计 学 角度 给 出 评判 ， 符 号 检验 就 是 一 
个 值得 推荐 的 选择 。 


在 后 文 的 描述 中 ， 我 们 规定 x 表示 频率 较 小 的 符号 出 现 的 次 数 ，n 表 示 正 负 号 合 在 一 起 的 总 
数 。 符 号 检验 是 以 二 项 分 布 为 基础 的 一 种 假设 检验 ， 尽 管 它 并 不 依赖 于 样本 数据 的 分 布 类 型 ， 
但 是 我 们 会 设法 用 一 个 正 号 或 者 负 号 来 对 每 个 样本 观察 值 进行 评判 。 如 果 差 异 不 显著 ， 那 么 正 
号 与 负 号 的 个 数 应 大 致 各 占 一 半 。 这 就 符合 一 个 成 功 概率 等 于 0.5 的 二 项 分 布 。 于 是 便 可 以 用 二 
项 分 布 的 公式 来 计算 精确 的 统计 量 , 并 由 此 获得 P 值 ,但 是 当 n 较 大 时 , 就 要 用 正 态 分 布 来 近似 。 
因为 又 是 二 项 分 布 的 随机 变量 ， 所 以 当 n 较 大 时 , 通常 规定 是 当 n > 25 时 ， 可 近似 地 认为 在 原 假 
设 前 提 下 ， 正 负 号 统计 结果 的 分 布 服从 正 态 N(0,1) 分 布 。 但 是 由 于 正 态 分 布 是 连续 分 布 ， 所 以 
要 连续 修正 ， 此 时 统计 量 为 : 

_ (x +0.5)— 0.5n 
加 0.5Vn 
再 由 此 统计 量 来 获得 P 值 。 


需要 说 明 的 是 ， 当 一 个 单 尾 检 验 中 应 用 符号 检验 时 ， 如 果 一 个 符号 的 出 现 频率 显著 地 多 于 
其 他 ， 但 样本 数据 却 和 原 假 设 一 致 ， 更 加 审慎 的 考量 就 不 可 或 缺 ， 以 免得 出 错误 的 结论 。 如 果 
数据 从 感觉 上 和 原 假设 一 致 ， 那 么 就 不 能 拒绝 原 假设 ， 也 不 要 继续 进行 符号 检验 了 。 任 何 时 候 
我 们 都 不 应 该 盲目 依赖 于 计算 的 结果 ， 利 用 与 统计 无 关 的 理性 分 析 总 是 必 不 可 少 的 。 

下 面 首先 通过 一 个 例子 来 说 明 利 用 符号 检验 对 单一 总 体 中 位 数 进行 检验 的 基本 步骤 。 联 合 
国 对 世界 上 66 个 大 城市 的 生活 消费 指数 以 纽约 市 某 年 的 消费 指数 作为 基准 100〉 按 从 小 到 大 
的 顺序 排列 如 表 9-13 所 示 ， 其 中 北京 的 指数 为 99。 


表 9-13 世界 主要 城市 消费 指数 
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可 以 假定 这 个 样本 是 从 世界 许多 大 城市 中 随机 抽样 而 得 到 的 所 有 大 城市 的 指数 组 成 的 总 体 。 
现在 的 问题 是 ， 这 个 总 体 的 中 位 数 是 多 少 ? 北京 是 否 在 该 水 平 之 下 ? 在 本 例 中 ， 总 体 分 布 是 未 
知 的 ， 比 较 适合 运用 符号 检验 。 


假定 用 MM 来 表示 总 体 中 位 数 , 这 意味 着 样本 点 XY，,…,X% 取 大 于 MM 的 概率 应 该 与 取 小 于 M 的 概 
率 相等 。 所 研究 的 问题 ,可 以 看 作 只 有 两 种 可 能 : 大 于 中 位 数 M， 标记 为 “十 ”小 于 中 位 数 M， 
标记 为 “一 ”。 令 5; 为 得 正 符号 的 数目 ， 以 及 5_ 为 得 负 符 号 的 数目 。 

易 知 8; 或 9_ 均 服从 二 项 分 布 Binomial(66, 0.5)。 则 5,; 和 S$_ 可 以 用 来 作为 检验 的 统计 量 。 


对 于 左 侧 检验 Ho: M = Mo; Hi: M < Mo, 当 零 假设 为 真 的 情况 下 , 5, 应 该 不 大 不 小 , 5S. 是 S| 和 
5_ 中 较 小 者 。 当 5, 过 小 ， 即 只 有 少数 的 观测 值 大 于 Mo。， 则 Mo 可 能 太 大 ， 目 前 总 体 的 中 位 数 可 能 
要 小 一 些 。 如 果 p(5, < x) < a， 则 拒绝 原 假设 。 其 中 的 a 是 显著 水 平 。 
对 于 右 侧 检验 Ho: M = Mo; 印 :M > Mo， 当 零 假设 为 真 的 情况 下 ，5, 应 该 不 大 不 小 。 当 5, 过 
大 ， 即 有 多 数 的 观测 值 大 于 Mo， 则 Mo 可 能 太 小 ， 目 前 总 体 的 中 位 数 可 能 要 大 一 些 。 如 果 
p(S, > x) < a， 则 拒绝 原 假设 。 
双 侧 检验 对 备 择 假 设 太 来 说 关心 的 是 等 于 正 的 次 数 是 否 与 等 于 负 的 次 数 有 差异 。 所 以 当 
p(S, 之 x) 十 p(S, > x) 小 于 显著 性 水 平 则 拒绝 原 假设 。 
针对 当前 所 讨论 的 例子 ， 做 单 尾 检 验 ， 则 备 择 假 设 为 M < 99。 通 常 ， 备 择 假设 采用 我 们 觉 
得 有 道理 的 方向 。 因 为 只 有 一 点 为 99， 侈 去 这 一 点 ， 于 是 n 从 66 减 少 到 65。 而 x = 23， 在 原 假 
设 下 , 二 项 分 布 的 概率 p(S; < 23)。 如 果 很 小 就 可 以 拒绝 零 假设 上面 这 个 概率 就 是 该 检验 的 P 值 。 
在 这 里 的 例子 中 ， 可 以 算得 : 
_ (23+0.5)—0.5x65 
各 0.5V65 
在 g = 0.05 的 单 尾 检验 中 , 临界 值 z = -1.645, 检验 统计 量 z = 一 2.232625 是 落 在 了 否定 区 间 中 ， 
如 图 9-1 所 示 。 因 此 ， 我 们 拒绝 原 假设 。 也 可 以 用 下 面 的 R 代码 来 计算 P 值 。 


» DNnorm(-2 .232625 
bi OO G0 


如 果 不 采 用 近似 计算 的 方法 ， 则 可 以 使 用 下 面 的 RR 代码 来 计算 P 值 。 


> pbinom(23, 65, 0.5) 
[1] 0.01240599 


也 就 是 说 ,在 原 假设 前 提 下 ， 目 前 由 该 样本 所 代表 的 事件 的 发 生 概率 仅 为 1.24%， 所 以 不 大 可 
能 。 也 就 是 说 ， 北 京 的 生活 指数 不 可 能 小 于 世界 大 城市 的 中 间 水 准 。 


三 一 2.232625 
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拒绝 不 拒绝 








=0 
六。 临界 值 z = 一 1.645 


样本 数据 z = 一 2.232625 
图 9-1 拒绝 域 与 非 拒 绝 域 


再 来 看 一 个 双 尾 检验 的 例子 。 某 企业 生产 一 种 钢管 ， 规 定 长 度 的 中 位 数 是 10 米 。 现 随机 地 
从 正在 生产 的 生产 线 上 选取 10 根 进行 测量 ， 结 果 如 下 。 


98 i101 97 9 38 W000 7 190 99 98 


中 位 数 是 这 个 问题 中 所 关心 的 一 个 位 置 参数 。 若 产品 长 度 真正 的 中 位 数 大 于 或 小 于 10 米 ， 则 生 
产 过 程 需要 调整 。 这 是 一 个 双 侧 检验 ， 应 建立 假设 : 
Ho:M = 10; Hi:M #10 

为 了 对 假设 做 出 判定 ， 先 要 得 到 检验 统计 量 5, 或 5_。 将 调查 得 到 的 数据 分 别 与 0 比较， 算 
出 各 个 符号 的 数目 : 5; = 1，5_ = 7, n = 8。 在 R 中 执行 符号 检验 的 代码 如 下 。 
> .pbanom(tee Sr 5NN2 
的 05Q703125 
即 P 值 为 0.0703125, 大 于 显著 性 水 平 0.05, 表明 调查 数据 支持 原 假 设 , 即 生产 过 程 不 需要 调整 。 


前 面 我 们 为 单 尾 检验 和 双 尾 检验 各 给 出 了 一 个 例子 。 但 是 在 科学 研究 中 一 直 有 一 种 倾向 于 
双 尾 检验 的 传统 。 这 是 因为 你 断言 正确 的 单 尾 备 择 假设 在 相反 的 方向 是 不 具备 任何 效力 的 。 即 
使 你 认为 或 者 希望 这 种 效力 可 以 在 一 个 方向 上 有 效 ， 这 种 确认 与 你 拒绝 深入 探究 这 种 效力 作用 
在 相反 方向 上 的 可 能 性 仍然 是 两 回 事 。 偏 爱 双 尾 检验 的 传统 是 一 个 良好 的 默认 选项 。 单 尾 检验 
也 有 它 存在 的 意义 ， 正 如 本 节 中 我 们 所 给 出 的 例子 那样 ， 但 是 研究 人 员 也 有 责任 解释 清楚 为 什 
么 某 个 单 尾 的 备 择 假 设 是 合适 的 。 仅 仅 让 数据 落 在 正确 的 一 侧 仍然 是 远 远 不 够 的 。 

如 果 我 们 使 用 之 前 介绍 的 参数 检验 方法 来 对 世界 主要 城市 消费 水 平 的 例子 进行 处 理 ， 将 会 
得 到 下 面 这 样 的 结果 。 从 中 可 以 看 出 ， 我 们 获得 了 一 个 更 加 极端 的 P 值 。 相 比 而 言 ， 符 号 检验 
往往 不 像 参数 检验 那么 灵敏 ， 尽 管 如 此 ， 两 种 检验 都 得 出 了 拒绝 零 假 设 的 结论 。 符 号 检验 没有 
将 样本 数据 看 作 极端 的 ， 因 为 它 只 使 用 关于 数据 方向 方面 的 信息 ， 而 忽略 了 数值 的 大 小 。 之 后 
将 要 介绍 的 威 尔 科 克 森 符号 秩 检验 在 很 大 程度 上 弥补 了 这 一 不 足 。 

wwaibbt.cmD0O0O000D0 


193 


下 


pear 


> binom.test (sum(x>99), length(x), alternative = "less") 
Exact binomial test 


data: sum(x > 99) and length (x) 

number of successes = 23, nlimber of trials = 606, p-value = 0.009329 
alternative hypothesis: true probability of success is less than 0.5 
95 percent confidence interval: 

0.0000000 0.4563087 

sample estimates: 
probability of success 

0.3484848 


根据 统计 资料 的 符号 ， 还 可 以 对 配对 样本 数据 进行 假设 检验 。 两 个 样本 既 可 以 是 互相 独立 
的 ， 也 可 以 是 相关 的 ， 也 就 是 说 既 可 检验 两 总 体 是 否 存在 显著 差异 ， 也 可 检验 是 否 来 自 同一 总 
体 。 符 号 检验 通过 两 个 相关 样本 的 每 对 数据 之 差 的 符号 来 进行 检验 ， 从 而 比较 两 个 样本 的 显著 
性 。 有 具体 地 讲 ， 若 两 个 样本 差异 不 显著 ， 正 差 值 与 负 差 值 的 个 数 应 大 致 各 占 一 半 。 如 果 两 者 相 
差 太 远 ， 就 有 理由 拒绝 原 假 设 。 下 面 通过 一 个 例子 来 说 明 利 用 符号 检验 对 配对 样本 数据 进行 检 
验 的 基本 步骤 。 

细 颗 粒 物 ， 又 称 PM2.5， 是 指环 境 空气 中 当量 直径 小 于 等 于 2.5 微 米 的 颗粒 物 。 它 能 较 长 时 
间 基 浮 于 空气 中 ， 其 在 空气 中 含量 浓度 越 高 ， 就 代表 空气 污染 越 严 重 。 虽 然 细 颗 粒 物 只 是 地 球 
大 气 成 分 中 含量 很 少 的 成 分 ， 但 它 对 空气 质量 和 人 能见度 等 有 重要 的 影响 。 与 较 粗 的 大 气 颗 粒 物 
相 比 ， 细 颗粒 物 粒 径 小 ， 面 积 大 , 活性 强 ， 易 附带 有 毒 、 有 害 物质 ， 且 在 大 气 中 的 停留 时 间 长 、 
输送 距离 远 ， 因 而 对 人 体 健康 和 大 气 环境 质量 的 影响 更 大 。 通 常 认 为 城市 中 细 颗 粒 物 的 浓度 要 
较 周边 郊区 更 高 ， 为 了 证 实 这 一 论断 ， 科 研 人 员 开 展 了 相关 研究 。 研 究 人 员 每 隔 一 定 周期 ， 分 
别 测定 某 城市 中 心地 带 与 其 郊区 的 PM2.5 浓度 ， 结 果 如 表 9-14 所 示 。 


表 9-14 ” 细 颗 粒 物 测定 结果 























































































































编 号 城市 | 差 值 
01 ]1 S8 57 -1 
02 12 67 66 1 
03 88 8 
04 El 和 
05 2 2 
| 1 | 1 | w% | a | ji 
07 75 和 
08 23 2 
09 85 -4 
10 77 2 
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根据 问题 描述 ， 提 出 原 假 设 和 备 择 假 设 如 下 。 


e Ho: 城市 和 郊区 的 细 颗 粒 物 浓 度 没 有 差别 。 

。 Hi: 原 假设 是 错误 的 。 
将 表 9-14 中 的 配对 样本 数据 一 对 一 比较 ， 如 果 差 值 为 正 ， 则 用 符号 “十 ”标记 ， 否 则 以 “一 ” 
标记 ， 如 二 者 相等 ， 就 记 为 “0”。 清点 计数 后 可 知 5; = 15、5_ = 4 和 n = 19。 然 后 在 R 中 进行 
显著 性 检验 ， 代 码 如 下 。 
> phinom(tdy 19 Prob = 0.5. GOwecueadd = 下 RUE X22 
i On Dir hs 1 Wh 2 
于 是 我 们 拒绝 原 假设 ， 得 出 城市 和 郊区 的 细 上 颗粒物 浓度 存在 差别 这 个 结论 。 正 如 前 面 曾经 讨论 
过 的 ， 更 多 时 候 我 们 倾向 于 采用 双 尾 检验 。 在 此 基础 上 分 析 两 个 指标 谁 高 谁 低 ， 应 当 借 助 一 些 
非 统 计 上 的 理性 分 析 来 得 出 最 终 的 结论 。 从 本 题 所 提供 的 数据 来 看 ， 城 市 里 细 颗 粒 物 浓度 高 于 
郊区 的 情况 更 加 普遍 ， 最 终 我 们 可 以 认为 城市 里 的 细 颗 粒 物 浓度 更 高 。 
最 后 我 们 来 解答 读者 可 能 还 存疑 的 一 个 问题 ， 即 当 n > 25 时 ， 所 用 的 检验 统计 量 的 基本 原 
理 。 前 面 我 们 讲 过 ， 当 n > 25 时 ， 检 验 统 计量 z 是 建立 在 对 p = 1/2 的 二 项 分 布 的 正 态 近似 基础 
上 的 。 概 率 论 的 知识 告诉 我 们 ， 对 于 二 项 分 布 而 言 ， 当 mpz>5 和 m(1 一 p)>5 都 成 并 时 ， 二 项 分 布 
的 正 态 近似 是 可 以 接受 的 。 而 且 对 于 二 项 分 布 而 言 ，J = np 且 o = Ynp(1 一 p)。 因 为 符号 检验 
假设 p = 1/2, 所 以 只 要 nz10, 便 可 以 满足 前 提 条 件 np>5 和 n(1 一 p)z>5。 男 外 ,由 于 假设 p = 1/2， 
还 可 得 到 = np = n/2 和 o = Vnp(1 一 p) = Vn/2。 因 此 : 
Wk 


也 一 












































就 变 成 了 : 








9.3 威 尔 科 克 森 (Wilcoxon) 符号 秩 检 验 


威 尔 科 克 森 符号 秩 检 验 〈(Wilcoxon signed-rank test) 是 由 美国 化 学 家 、 统 计 学 家 弗兰克 。 威 
尔 科 克 森 (Frank Wilcoxon) 于 1945 年 提出 的 。 该 方法 是 在 成 对 观测 数据 的 符号 检验 基础 上 发 
展 起 来 的 , 它 不 仅 利用 了 观察 值 和 原 假设 中 心 位 置 的 差 的 正 负 , 还 利用 了 差 的 值 的 大 小 的 信息 ， 
因此 比 传统 的 单独 用 正 负 号 的 检验 更 加 有 效 。 
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如 果 两 个 总 体 的 分 布 相同 , 每 个 配对 数值 的 差 应 服从 以 0 为 中 心 的 对 称 分 布 。 也 就 是 将 差 值 
按照 绝对 值 的 大 小 编 秩 《〈 排 顺序 ) 并 给 秩 次 加 上 原来 差 值 的 符号 后 ， 所 形成 的 正 秩 和 与 负 秩 和 
在 理论 上 是 相等 的 (满足 差 值 总 体 中 位 数 为 0 的 假设 )， 如 果 二 者 相差 太 大 ， 超 出 界 值 范围 ， 则 
拒绝 原 假设 。 

在 正式 介绍 威 尔 科 克 森 符号 秩 检验 之 前 ， 先 来 了 解 一 下 秩 的 概念 。 当 数据 按照 某 个 标准 进 
行 排序 之 后 ， 秩 是 按照 一 个 样本 项 在 排序 中 的 次 序 而 分 配给 该 样本 项 的 一 个 数字 。 第 1 项 被 赋 
了 予 秩 1， 第 2 项 被 赋予 秩 2， 依 此 类 推 。 

例如 数字 12、10、35、30、18 可 以 按 从 小 到 大 的 顺序 排列 为 10、12、18、30、35。 那 么 
给 这 些 数字 编 秩 后 的 结果 如 下 所 示 。 

原始 值 12 10 35 30 18 
排序 值 10 12 18 30 35 
和 而 蔬 个 

秩 1 2 3 4 5 

如 果 在 秩 中 出 现 一 个 同 级 的 情况 ， 一 般 是 算出 所 涉及 之 秩 的 均值 后 把 这 个 平均 秩 赋 予 每 一 
个 同 级 项 ， 例 如 数字 12、10、35、12、18 中 因为 有 两 个 12， 所 以 秩 2 和 秩 3 同 级 ， 于 是 就 把 2 
和 3 的 平均 值 2.5 赋 给 这 两 个 12， 即 : 

原始 值 12 10 35 12 18 


排序 值 10 12 12 18 35 
下 
秩 1 25 25 4 5 


在 应 用 威 尔 科 克 森 符 号 秩 检 验 时 ， 通 常 假设 样本 数据 是 随机 选择 的 ， 而 且 总 体 或 者 由 配 
对 数据 算出 的 ) 差 值 总 体 服 从 一 个 近似 对 称 的 分 布 ， 但 并 不 要 求 数 据 服从 正 态 分 布 。 


威 尔 科 克 森 符号 秩 检 验 可 以 用 于 检验 一 个 样本 是 否 来 自 于 一 个 具有 指定 中 位 数 的 总 体 。 例 
如 ， 下 面 是 10 个 欧洲 城镇 每 人 每 年 平均 消费 的 酒 类 (相当 于 纯 酒 精 数 )， 数 据 已 经 按 升序 排列 。 


4.12 5.81 7.63 9.74 10.39 11.92 12.32 12.89 13.54 14.45 
人 们 普遍 认为 欧洲 各 国人 均 年 消费 酒量 的 中 位 数 相 当 于 纯 酒 精 8 升 , 试用 上 述 数据 检验 这 种 
看 法 。 
通过 数据 可 以 看 出 ， 中 位 数 为 11.155， 明 显 大 于 8， 因 此 可 以 建立 如 下 假设 。 
Ho:M=8; Hi:M>8 
然后 根据 每 个 样本 值 与 中 位 数 的 差 来 计算 相应 的 秩 和 符号 ， 中 间 计 算 结 果 如 表 9-15 所 示 。 











wwaibbt.com DOOO0O0D 
196 


第 9 章 非 参 数 检 验方 法 


表 9-15 中 间 计 算 结果 

















i 
ss | ss | ss | 


分 别 求 出 带 正 号 的 秩 和 以 及 带 负 号 的 秩 和 如 下 。 


T=2+4++6++7 二 8 十 9 二 10=46 





T=5+3+1=9 


用 7T 来 表示 两 个 秩 和 中 的 较 小 者 ， 其 实 两 个 和 中 的 任何 一 个 都 可 以 使 用 ， 但 为 了 简化 步骤 ， 我 
们 通常 选择 其 中 的 较 小 者 。 令 n 为 差 值 Dp 不 为 0 的 样本 数据 的 数量 ， 对 于 n<30， 则 检验 统计 量 为 
T， 如 果 n > 30， 则 统计 量 为 : 


7 一 


一 nm+1)(2n+1) 
J a 


如 果 n<30， 可 以 从 威 尔 科 克 森 统计 量 临 界 值 表 中 查 得 T 的 临界 值 。 如 果 n > 30， 则 从 正 态 
”概率 分 布 表 中 查 得 z 的 临界 值 。 在 本 例 中 T = 9、n = 10， 从 威 尔 科 克 森 统 计量 临界 值 表 中 查 得 
单 尾 a = 0.05 的 临界 值 为 11， 因 为 7 = 9 小 于 临界 值 11， 拒 绝 原 假设 。 也 可 以 直接 从 威 尔 科 克 森 
符号 秩 检验 统计 量 表 中 查 得 P 值 为 0.032 < w = 0.05， 同 样 可 以 拒绝 原 假 设 。 最 终 得 出 结论 欧洲 
人 均 酒精 年 消费 〈 中 位 数 ) 多 于 8 升 。 


现 给 出 在 R 中 执行 以 上 检验 的 代码 如 下 。 


> x=o(4. 2 0001 0739 92 12. 3920271025097 T3547 14d AD 
> wilcox.test (x-8, alternative = "greater") 


n(n+1) 
4 


Wilcoxon signed rank test 


Gata:; XxX -8 有 
V = 46, p-value = 0.03223 
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alternative hypothesis: true location is greater than 0 


对 于 配对 数据 而 言 ， 威 尔 科 克 森 符号 秩 检 验 也 可 用 于 检验 总 体 分 布 之 间 的 差异 ， 所 以 这 时 
的 原 假 设 和 备 择 假设 通常 如 下 。 


。 Ho: 两 个 样本 来 自 于 相同 分 布 的 总 体 。 
。 Hi: 两 个 样本 来 自 于 不 同 分 布 的 总 体 。 
来 看 一 个 例子 。 表 9-16 记录 了 9 名 混合 性 焦虑 和 抑郁 症 患 者 在 开始 接受 一 种 镇 静 剂 治疗 后 
第 1 次 和 第 2 次 抑郁 程度 评估 的 结果 。 现 在 请 考虑 这 种 疗法 是 否 使 患者 的 情况 得 到 了 改善 。 
表 9-16 ”治疗 效果 数据 


Ls3 | 0 | 162 | 248 | 168 | gg | ss | 306 | 1a0 
0.878 


0.647 0.598 2.05 1.06 1.29 3.14 1.29 








第 1 次 

第 2 次 
在 R 中 执行 配对 数据 的 威 尔 科 克 森 符号 秩 检验 的 方法 与 前 面 单一 样本 的 检验 方法 十 分 相像 。 下 
面 我 们 给 出 的 两 种 写法 将 会 得 到 相同 的 结果 。 








Wc (a3 Osh, 1 G3, 2 M8, 55 3.06 .30) 
> yo .BB Uva OO S05 TD0, L.2090, LO BL4, ,239) 
> ## wilcox.test(y - x, alternative = "less") 
> wilcox.test (x, y, paired = TRUE, alternative = "greater") 


Wilcoxon signed rank test 


data: -区 
V=3, p-value = 0.019353 
alternative hypothesis: true location is less than 0 
由 于 P 值 为 0.01953 < w = 0.05， 所 以 我 们 拒绝 原 假设 ,进而 得 出 这 种 疗法 使 患者 的 情况 得 到 了 
改善 的 结论 。 

当 数 据 对 较 多 时 , 可 以 计算 一 个 近似 的 P 值 , 为 此 需要 将 参数 exact 的 值 置 为 FALSE。 此 外 ， 
参数 correct 用 于 控制 是 否 对 P 值 的 正 态 近似 计算 应 用 连续 性 修正 。 来 看 下 面 这 段 示 例 代码 。 


> wilcox.test(y ~ x, alternative = "less", 
texact = FALSE, correct = FALSE) 





Wilcoxon signed rank test 


Gata: Vy~—* 
V= 5, p-value = 0.01908 | 
alternative hypothesis;, true location is less than 0 


读者 可 以 尝试 将 同样 的 问题 分 别 用 符号 检验 和 威 尔 科 克 森 符号 秩 两 种 方法 进行 分 析 ， 确 实 
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和 非 多 仙人 和 阁 _- 


有 些 情 况 ， 它 们 所 得 的 结论 是 相悖 的 。 对 同一 问题 用 符号 检验 法 和 符号 秩 检验 法 ， 如 果 出 现 矛 
盾 的 结果 , 应 该 更 倾向 于 相信 符号 秩 检验 法 的 结果 , 因为 它 既 考虑 差 值 的 符号 , 也 考虑 其 大 小 ， 
利用 了 更 多 的 信息 ， 所 以 结果 相对 可 靠 些 。 


最 后 来 考虑 一 下 当 n > 30 时 使 用 的 检验 统计 量 为 何 是 那样 一 种 形式 的 。 所 有 秩 的 和 

1 十 2 十 3 十 … 十 nn 等 于 n(n 十 1)/2; 如 果 这 个 秩 和 在 正 负 两 类 之 间 等 分 ， 则 两 个 和 中 的 每 一 个 

都 应 该 接近 n(n + 1)/2 的 一 半 ， 即 n(n 十 1)/4。 回想 前 面 给 出 的 检验 统计 量 表达 式 ， 其 中 的 分 母 
代表 了 7T 的 标准 差 ， 并 且 使 用 了 下 面 的 等 式 关 系 。 

下 22 直 于 全 二 We 0 Ey 


这 个 等 式 可 以 由 数学 归纳 法 来 证 明 ， 此 处 不 再 详 述 。 


9.4 威 尔 科 克 森 (Wilcoxon) 的 秩 和 检验 


威 尔 科 克 森 秩 和 检验 也 是 一 种 常用 的 非 参 数 检验 方法 ， 它 又 被 称 为 曼 - 惠 特 尼 - 威 尔 科 克 和 森 
检验 (Mann-Whitney-Wilcoxon Test)， 简 称 MWW 检验 。 与 符号 秩 检验 不 同 的 是 ， 秩 和 检验 可 
以 应 用 于 两 个 独立 的 样本 数据 集 。 如 果 选 自 一 个 总 体 的 样本 值 和 选 自 男 一 个 总 体 的 样本 值 没 有 
关系 ， 或 者 没有 某 种 形式 的 匹配 ， 就 称 这 两 个 样本 是 独立 的 。 


威 尔 科 克 森 秩 和 检验 与 参数 检验 法 中 独立 样本 的 检验 法 相对 应 。 当 “总 体 正 态 ” 这 一 前 提 
不 成 立时 ， 不 能 用 上奏 验 法 ， 可 以 用 秩 和 检验 法 ; 当 两 个 样本 都 为 顺序 变量 〈 例 如 由 秩 组 成 的 数 
据 ) 时 ， 也 需 使 用 秩 和 检验 法 进行 差异 显著 性 检验 。 在 应 用 秩 和 检验 法 时 我 们 假设 有 两 个 随机 
选择 的 独立 样本 。 同 样 ， 秩 和 检验 也 不 要 求 两 个 总 体 服从 正 态 分 布 或 者 其 他 特殊 分 布 。 威 尔 科 
克 森 秩 和 检验 的 原 假设 和 备 择 假设 一 般 如 下 。 


。 Ho: 两 个 样本 来 自 于 具有 相同 分 布 的 总 体 ， 即 这 两 个 总 体 是 相同 的 。 

e。 Hi1: 两 个 样本 来 自 于 具有 不 同 分 布 的 总 体 ， 即 两 个 总 体 在 某 方面 有 差异 。 
威 尔 科 克 森 秩 和 检验 的 核心 思想 是 : 如 果 两 个 样本 抽取 自 相 同 的 总 体 ， 且 这 些 值 都 在 数值 的 一 
个 合并 集中 进行 了 排序 ， 那 么 高 的 秩 和 低 的 秩 应 该 平均 地 落 在 两 个 样本 之 中 。 如 果 在 一 个 样本 
中 发 现 低 秩 特别 显著 ， 而 在 另 一 样本 中 发 现 高 秩 特别 显著 ， 那 么 就 有 理由 怀疑 这 两 个 总 体 是 不 
同 的 。 

如 何 评估 这 些 高 秩 和 低 秩 是 否 平均 地 落 在 了 两 个 样本 中 呢 ? 我 们 用 ma 来 表示 样本 1 的 容量 ， 
用 ns 来 表示 样本 2 的 容量 。 用 T 来 表示 总 体 1 观察 值 的 秩 之 和 。 如 果 原 假设 为 真 ， 即 两 个 总 体 
具有 相同 的 分 布 。 我 们 从 容量 为 N 的 总 体 1 中 抽取 了 一 个 容量 为 ma 的 样本 1， 所 以 样本 1 的 秩 集 
就 相当 于 是 从 1,2,…, NN 的 整数 值 中 抽取 的 容量 为 nj 的 一 个 随机 样本 。 因 为 样本 1 和 样本 2 合并 
后 产生 的 秩 集 是 从 1,2,… ,ni 十 nz 十 1 的 一 个 整数 集合 ， 其 均值 为 : 
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(na 二 ma)Oa 十 nz 十 1) (ni+nz+1) 
2(n1 + nz) 2 
所 以 在 原 假设 前 提 下 ，T 的 期 望 和 方差 应 该 分 别 为 : 
n(n+n,++1) 
ro 
其 中 我 们 用 到 了 这 样 的 一 Pe 


直观 上 如 果 T 比 jz 大 很 多 或 小 很 多 ， 我 们 就 有 理由 拒绝 原 假设 。 秩 和 检验 的 拒绝 域 具体 给 
出 了 ， 当 原 假设 被 拒绝 时 T 和 jr 差异 的 大 小 。 在 具体 执行 时 拒绝 的 临界 值 可 以 从 相关 的 统计 表 
中 查 到 。 


对 于 备 择 假设 而 言 ， 当 我 们 说 两 个 总 体 在 某 方面 有 差异 ， 有 具体 是 可 以 分 成 3 种 情形 的 ， 首 
先是 总 体 1 是 总 体 2 的 一 个 右 平 移 , 给 定 显 著 水 平 , 查 临 界 值 表 得 到 Tu , 若 T > Tj,U 表 示 Upper 即 
右边 界 , 则 可 以 拒绝 原 假 设 。 其 次 是 总 体 1 是 总 体 2 的 一 个 左 平移 , 查 临界 值 表 得 到 Ti, 若 T < 也， 
7 表示 Lower 即 左边 界 ， 则 可 以 拒绝 原 假 设 。 显 然 前 两 种 都 是 单 尾 的 。 最 后 一 种 则 是 双 尾 的 ， 即 
总 体 1 和 总 体 2 互 为 平移 ， 若 7 > Tj 或 者 T < 7T,， 则 拒绝 原 假设 。 


来 看 一 个 例子 ， 注 意 现在 我 们 讨论 的 都 是 n1<10 且 ns<10 的 情况 。 有 研究 人 员 想 检验 一 下 
酒精 对 于 反应 时 间 的 影响 。10 名 参与 者 饮用 了 指定 剂量 的 含 酒 精 饮料 ， 另 外 10 名 则 饮用 同样 
多 的 不 含 酒精 的 饮品 〈 一 种 安慰 剂 )。 参 与 者 并 不 知道 自己 所 喝 的 饮料 中 是 否 含有 酒精 。 表 9-17 
给 出 了 这 20 个 人 对 一 系列 测试 的 反应 时 间 (以 秒 计 )。 请 问 酒精 是 否 使 得 反应 时 间 延 长 了 ? 


i 2 
oF = 





(na 十 72 十 1) 








表 9-17 实验 测试 结果 





根据 描述 ， 建 立 如 下 原 假设 及 备 择 假设 。 


。 Ho: 对 应 于 安慰 剂 和 酒精 的 两 个 反应 时 间 总 体 分 布 相同 。 

。 反 : 对 应 于 安慰 剂 的 反应 时 间 之 总 体 分 布 是 对 应 于 酒精 的 反应 时 间 之 总 体 分 布 的 左 平移 ， 
即 饮 酒会 延长 反应 时 间 。 

将 两 组 数据 混合 后 排序 ， 并 编 秩 ， 中 间 计 算 结 果 如 表 9-18 所 示 。 


ka 18 计生 各 
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对 于 w 一 0.05， 执行 单 尾 检验 ， ?1 一 n> 一 0 查 表 可 得 T 一 83 。 计算 T 的 值 ， 即 从 总 体 1 
中 抽取 的 样本 的 秩 和 ，7T = 你 =1+2+3+4+5+6+7+8+16+18=70。 因 为 T< 亿 ， 
则 拒绝 原 假设 ， 进 而 认为 安慰 剂 总 体 的 反应 时 间 小 于 酒精 总 体 。 


在 R 中 同样 可 以 使 用 wilcox.test() 函 数 来 执行 威 尔 科 克 森 秩 和 检验 ， 此 时 只 需 将 参数 paired 
的 值 置 为 默认 值 FALSE 即 可 ， 因 为 默认 值 为 FALSE， 所 以 也 可 黑 认 。 示 例 代码 如 下 。 


Diacebo 9 Wed, MO od OQ 

O07 Orr el. 3 197) 

LeoONGl Te (LA6r LAB. LT.76r L.A45 Tis 

3.07, /0.98, Jively 20 E22 

wilcox.test (placebo, alcohol, alternative = "less", exact = TRUE) 


WW 


Wilcoxon rank sum test 


data: Placebo and alcohol 
W = 15, p-value = 0.003421 
alternative hypothesis: true location shift is less than 0 


”可 见 P 值 为 0.003421 < w = 0.05， 同 样 拒绝 原 假 设 。 


当 两 个 样本 容量 都 大 于 10 时 ，T 的 抽样 分 布 近 似 于 正 态 ， 于 是 可 以 在 威 尔 科 克 森 秩 和 检验 
中 用 z 统 计量 代替 T， 即 : 





理论 上 ， 威 尔 科 克 森 秩 和 检验 要 求 总 体 分 布 是 连续 的 ， 所 以 任意 两 个 数值 相等 的 概率 为 零 。 在 
介绍 秩 的 概念 时 ， 我 们 已 经 给 出 了 相等 秩 的 处 理 方法 。 此 时 我 们 还 须 调 整 7 的 方差 ， 调 整 后 的 
值 为 : 

2 nn> Br 万 (#? > 1) 


a i 
7 到 Gh i (ni +nz)(ni + nz — 1) 
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其 中 ，k 是 相等 数据 的 组 数 ，t 是 第 j 组 相等 的 观察 值 中 数据 的 个 数 。 当 没有 相等 数据 时 ， 对 所 
的 j, 右 = 1, 这 时 情况 与 我 们 最 初 给 出 的 方差 公式 一 致 。 实际 上 , 除非 有 许多 相等 数据 , 否则 ， 
调整 对 oz 的 影响 不 大 。 

来 看 一 个 例子 。 研 究 人 员 想 确定 一 个 湖泊 中 的 清理 工程 是 否 奏效 。 为 此 在 工程 开始 前 ， 他 
们 从 湖 中 抽取 了 12 个 水 样 ， 然 后 测定 其 中 的 溶解 氧 含量 〈 单 位 : ppm)， 因 为 溶解 氧 含量 在 夜 
间 有 所 波动 ， 因 此 所 有 测量 均 在 下 午 2 点 的 高 峰 期 进行 。 工 程 开展 前 后 的 数据 如 表 9-19 所 示 。 












































表 9-19 溶解 氧 的 含量 数据 



































根据 描述 ， 我 们 提出 下 列 原 假设 与 备 择 假设 。 

e Ho: 清理 前 后 数据 的 分 布 相同 。 

e Hj: 清理 前 数据 的 分 布 是 清理 后 数据 的 分 布 的 一 个 右 平移 。 
注意 如 果 溶 解 氧 含量 降低 ， 则 说 明 清理 工程 有 效 ， 而 表现 在 分 布 上 即 为 清理 前 数据 的 分 布 是 清 
理 后 数据 的 分 布 的 一 个 右 平 移 〈 或 者 说 ， 清 理 后 数据 分 布 发 生 了 左 移 )。 

同样 ， 我 们 混合 24 个 样本 观察 值 ， 并 赋予 相应 的 秩 ， 处 理 两 个 或 两 个 以 上 相同 观察 值 的 方 
法 遵循 前 面 介绍 的 方法 ， 即 取 平 均值 。 中 间 计 算 结 果 如 表 9-20 所 示 。 

表 9-20 中间 计 算 结 果 
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10.6 4.5 时 i113 16 Y 
10.6 4.5 11.4 17 X 
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因为 nj 和 ns 的 值 都 大 于 10， 所 以 可 以 使 用 检验 统计 量 z。 如 果 想 要 检验 出 清理 后 观察 值 的 

分 布 向 左 平 移 ， 那 么 就 应 该 期 望 样本 X 的 秩 和 较 大 。 因 此 ， 如 果 z = (T 一 必 )/or 值 较 大 ， 就 应 

该 拒绝 原 假设 。 其 中 , T= Tx = 10 二 14 二 14 十 14 十 17 十 18 十 19 十 20 二 21 十 22.5 十 22.5 十 
24 = 216。 男 外 根据 前 面 给 出 的 公式 可 以 算得 : 

_mlm+t+nzt+1) 12x(12+12+1) 








2 -加 :| Ei 1t(t? — 二 | 

0. (n+nz+1)— 

(ni + nz2)(n + no i 
-| oto tt -298056 
“地 24 x 23 ss 


所 以 检验 统计 量 z 的 值 为 ; 
rT—fp 216—150 
or V298.956 
从 图 9-2 中 可 见 ， 这 个 值 大 于 1.645， 位 于 拒绝 域内 ， 所 以 拒绝 原 假设 。 从 而 得 出 结论 : 清除 前 
数据 的 分 布 是 清除 后 数据 的 分 布 的 一 个 右 平 移 ， 即 清除 后 溶解 氧 的 含量 小 于 清除 前 的 含量 
还 可 以 用 下 面 的 代码 计算 相应 的 P 值 。 


> pnormta 68432159) Lowear. tail = EALUSE) 
[1L] 6,7498598-05 


Z 





= 3.817159 





不 拒绝 拒绝 


一 人 人 一 人 > 


Ti 











RE 2 
z= 人 0 区 A 
1 

f 翌 本 数据 z = 3.817159 


斤 界 值 z = 1.645 
图 9-2 拒绝 域 与 非 拒 绝 域 
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ee re 


最 后 直接 使 用 R 提供 的 wilcox.test0 〇 函数 来 执行 秩 和 检验 ， 易 见 最 终 得 到 的 P 值 与 我 们 前 面 
人 工 算得 的 一 致 ， 因 为 P 值 小 于 0.05， 同 样 可 以 据 此 推翻 原 假设 ， 进 而 认为 清理 工程 确实 有 效 。 


befSre < "C(O Mo Tl MD Llsidy 

T1155e lin Li: Te ElBe llsdy TL 9 L125L) 

aftex <— el(li0.27 L103 L104 1067 0Bs 

TO Od Toad PO ello ie, Ev3y 
wilcox,test (before, after, alternative = "greatern7 
exact = FALSE, correct = FALSE) 


4 Vt"V + Vv 


Wilcoxon rank sum test 


data: before and after 
W= 138, p-value = 6.75e-05 
alternative hypothesis: true location shift is greater than 0 


威 尔 科 克 森 秩 和 检验 具有 非常 优异 的 效力 ， 所 涉及 的 计算 也 更 简单 。 所 以 即使 在 正 态 分 布 
得 以 满足 的 条 件 下 ， 研 究 人 员 也 更 倾向 于 使 用 秩 和 检验 。 而 非 本 书 前 面 介绍 的 参数 检验 。 


9.5” 克 和 鲁 斯 卡尔 - 沃 利 斯 Kruskal-Wallis) 检验 


如 果 我 们 从 总 体 1 中 随机 抽取 了 一 组 样本 ,又 从 总 体 2 中 随机 抽取 了 一 组 样本 ， 威 尔 科 克 和 森 
秩 和 检验 就 可 以 用 来 分 析 这 两 个 样本 所 代表 的 总 体 1 和 总 体 2 是 否 具有 相同 的 分 布 。 现 在 如 果 有 
来 自 3 个 或 更 多 独立 总 体 的 样本 数据 ， 能 否 用 一 种 方法 来 分 析 它 们 所 代表 的 总 体 是 否 具 有 相同 
的 分 布 呢 ? 这 时 我 们 所 采用 的 方法 就 是 克 和 鲁 斯 卡尔 - 沃 利 斯 (Kruskal-Wallis) 检验, 又 称 甩 检验 。 
本 书后 面 还 会 介绍 到 单 向 方差 分 析 ‘ANOVA )， 该 方法 可 以 用 来 检验 一 些 样 本 均值 之 间 的 差别 
是 否 显著 ， 但 方差 分 析 要 求 所 有 有 关 的 总 体 都 是 正 态 分 布 的 。 如 同 其 他 非 参 数 检验 一 样 ， 克 和 鲁 
斯 卡尔 - 沃 利 斯 检验 并 不 要 求 总 体 服从 正 态 分 布 或 者 任意 其 他 的 特殊 分 布 。 


克 鲁 斯 卡尔 - 沃 利 斯 检验 的 原 假设 和 备 择 假设 一 般 如 下 。 
。 Ho: 样本 来 自 于 具有 相同 分 布 的 总 体 。 
。 Hi: 样本 来 自 于 具有 不 同 分 布 的 总 体 。 
克 鲁 斯 卡尔 - 沃 利 斯 检验 的 统计 量 定 义 为 : 
12 Ti 
= (2 引 -3nr +1) 


其 中 ni 是 样本 i 的 观察 值 数量 ，i = 1,2,…,k，k 是 样本 的 个 数 ，nr 是 混合 后 的 总 样本 容量 ， 即 : 
nr = 
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另外 , 丈 是 样本 i 在 总 的 样本 观察 值 中 的 秩 和 。 对 于 给 定 的 显著 水 平 c， 如 果 统 计量 已 超过 自由 度 
为 k 一 1 的 x 的 临界 值 ， 则 拒绝 原 假设 。 

通常 我 们 都 要 求 每 个 样本 中 至 少 有 5 个 观察 值 , 这 样 检验 统计 量 甩 的 分 布 才能 用 X? 分布 来 近 
似 。 这 个 检验 统计 量 有 其实 就 是 本 书后 面 将 要 讨论 的 方差 分 析 中 检验 统计 量 F 的 秩 形 式 。 当 对 秩 
进行 处 理 ， 而 非 对 原始 值 进行 处 理 时 ， 许 多 量 是 已 经 预先 知道 的 。 例 如 ， 所 有 秩 的 和 可 以 表示 
为 nr(nr + 1)/2。 表 达 式 为 : 


12 过 
n=) 


其 中 ， 


合并 了 秩 的 加 权 方 差 ， 以 得 到 这 里 给 出 的 检验 统计 量 王 。 这 个 五 的 表达 式 与 前 面 给 出 的 表达 式 在 
代数 上 是 相等 的 。 但 前 面 4H 的 形式 处 理 起 来 更 加 人 简便。 尽管 克 鲁 斯 卡尔 - 沃 利 斯 检验 计算 起 来 非 
常 容易 ， 但 它 并 没有 F 检 验 那 样 有 效 ， 因 此 它 可 能 会 需要 更 加 明显 的 差别 来 拒绝 零 假设 。 

当 样 本 观察 值 的 秩 有 大 量 相 等 时 ， 用 


3 
一 


0 四 
H'=H/(1 上 
来 进行 修正 ， 其 中 心 是 第 /个 相等 秩 组 中 的 观察 值 数量 。 
下 面 结 合 一 个 例子 来 演示 使 用 克 鲁 斯 卡尔 - 沃 利 斯 检验 的 基本 方法 。 为 研究 煤矿 粉 侍 作业 环 
境 对 尘肺 的 影响 ,将 18 只 大 鼠 随 机 分 到 XX、Y 和 2Z 这 3 组 ， 每 组 6 只 ， 分 别 在 地 面 办 公 楼 、 煤 炭 仓 
库 和 矿井 下 染 侍 ，12 周 后 测量 大 鼠 全 肺 湿 重 (单位: 克 )， 数 据 见 表 9-21， 问 不 同 环境 下 大 鼠 
全 肺 湿 重 有 无 差别 ? 





表 9-21 大 鼠 全 肺 湿 重 数据 





首先 ， 根 据 描述 提出 下 列 原 假设 和 备 择 假设 。 
e Ho: 3 组 没有 差异 《〈 即 它们 来 自 同一 总 体 )。 
。 Hi: 3 组 中 至 少 有 一 个 和 其 他 组 不 同 。 
在 计算 统计 量 H 之 前 ， 首 先 从 低 到 高 排列 18 个 样本 数据 ， 并 编 秩 。 中 间 数 据 的 处 理 结果 如 
表 9-22 所 示 。 其 中 处 理 相 等 数据 时 的 方法 前 面 已 经 多 次 讲 到 ， 这 里 不 再 袭 述 。 
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EEE EON 


表 9-22 ”中间 数据 的 处 理 结果 























计算 3 组 秩 和 的 结果 如 下 。 
六 =15+15+5+6+8+10=32 
Ty =3+8+8+11+12.5+14=56.5 
Tz =4+12.5+15+16+17+18= 82.5 

根据 3 组 秩 的 和 可 以 对 统计 量 H 进 行 计算 : 

12 [* 56.52 ”82.52 





H 


TT )-3x (8+ =7459064 


因为 含有 相同 大 小 的 数据 ， 所 以 使 用 H'， 来 对 进行 修正 。 其 中 : 
Rs ee 


n3—nr 183 一 18 ”5814 


将 该 值 带 入 到 H'， 于 是 可 得 : 
H 7.459064 


a 1__36 0.993808 
5814 


= 7.505538 
可 见 ， 尽 管 涉及 相等 的 秩 几 乎 占 到 总 数 的 一 半 ，H' 的 值 和 仍然 非常 相近 。 由 于 自由 度 为 
k 一 1 = 2， 所 以 可 在 R 中 使 用 下 面 的 代码 来 计算 P 值 。 


> pchisq(df = 2, 7.505538, lower.tail = FALSE) 
[emi WN eo es :sole hs 


由 于 P 值 小 于 0.05， 所 以 我 们 拒绝 原 假设 ， 认 为 3 组 的 测试 结果 之 间 存 在 有 显著 的 差异 。 


上 述 计算 结果 在 R 中 可 以 使 用 非常 简单 的 代码 来 得 到 ， 下 面 的 代码 同样 得 出 了 7.5055 的 H' 
统计 量 以 及 0.02345 的 P 值 。 
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SR md ,ud 4 4 .a 

> ysrel&.5，4.4 3.5， 4.2, 4.6, 4.2) 
> seo 3.6, 5 51 5 
KEUskealhtest(liste(k y, 2)) 





Kruskal Walilis rank sum test 


Gata list(x, y, 2) 
Kruskal-Wallis chi-“sduareqd = 7.5055, df = 2, p-value = 0.02345 

本 章 我 们 向 读者 介绍 了 几 种 十 分 常用 的 非 参数 检验 方法 。 与 前 面 讲 过 的 参数 检验 方法 相 比 ， 
非 参数 检验 方法 不 受 总 体 分 布 的 限制 ， 适 用 范围 更 广 ， 使 用 起 来 也 更 简便 。 但 我 们 还 需 指 出 ， 
当 测量 的 数据 能 够 满足 参数 统计 的 所 有 假设 时 ， 非 参数 检验 方法 虽然 也 可 以 使 用 ， 但 效果 远 不 
如 参数 检验 方法 。 当 数据 满足 假设 条 件 时 ， 参 数 统计 检验 方法 能 够 从 其 中 广泛 地 、 充 分 地 提取 
有 关 信 息 。 非 参数 统计 检验 方法 对 数据 的 限制 较为 宽松 ， 只 能 从 中 提取 一 般 的 信息 ， 相 对 参数 
统计 检验 方法 会 浪费 一 些 信息 。 所 以 对 于 参数 检验 方法 而 言 ， 我 们 应 该 注意 把 握 它们 适用 的 条 
件 。 在 具体 应 用 时 ， 更 应 审慎 检查 这 些 条 件 是 否 满 足 。 针 对 有 具体 问题 ， 要 注意 分 析 问 题 本 身 所 
提供 的 信息 ， 审 慎 选 择 检验 方法 。 
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一 元 线性 回归 


Fr Ee = ar sm 二 -FEx9-3ucSurc 二 -ec 一 


线性 回归 是 统计 分 析 中 最 常 被 用 到 的 一 种 技术 。 在 其 他 的 领域 ， 例 如 机 器 学 习 理 论 和 计量 
经 济 研究 中 ， 回 归 分 析 也 是 不 可 或 缺 的 重要 组 成 部 分 。 本 章 将 要 介绍 的 一 元 线性 回归 是 最 简单 
的 一 种 回归 分 析 方 法 ， 其 中 所 讨论 的 诸多 基本 概念 在 后 续 更 为 复杂 的 回归 分 析 中 也 将 被 常常 用 
到 。 


10.1 回归 分 析 的 性 质 


回归 一 词 最 早 由 英国 科学 家 弗朗西斯 。 高 尔 顿 Francis Galton) 提出， 他 还 是 著名 的 生物 
学 家 、 进化论 葛 基 人 查尔斯 达尔文 (Charles Darwin) 的 表 弟 。 高 尔 顿 深 受 进化 论 思想 的 影响 ， 
并 把 该 思想 引入 到 人 类 研究 ， 从 遗传 的 角度 解释 个 体 差异 形成 的 原因 。 高 尔 顿 发 现 ， 虽 然 有 一 
个 趋势 一 一 父母 高 ， 儿 女 也 高 ， 父 母 矮 ， 儿 女 也 矮 ， 但 给 定 父母 的 身高 ， 儿 女 辈 的 平均 身高 却 
趋向 于 或 者 “回归 ”到 全 体 人 口 的 平均 身高 。 换 句 话 说， 即使 父母 双方 都 异常 高 或 者 异常 矮 ， 
儿女 的 身高 还 是 会 趋向 于 人 口 总 体 的 平均 身高 。 这 也 就 是 所 谓 的 普遍 回归 规律 。 高 尔 顿 的 这 一 
结论 被 他 的 朋友 ， 英 国 数学 家 、 数 理 统计 学 的 创立 者 卡尔 。 皮 尔 逊 (Karl Pearson) 所 证 实 。 皮 
尔 逊 收集 了 一 些 家 庭 的 1000 多 名 成 员 的 身高 记录 , 发 现 对 于 一 个 父亲 高 的 群体 ， 儿 蕴 的 平均 身 
高 低 于 他 们 父辈 的 身高 ， 而 对 于 一 个 父亲 矮 的 群体 ， 儿 蕴 的 平均 身高 则 高 于 其 父辈 的 身高 。 这 
样 就 把 高 的 和 矮 的 儿 辈 一 同 “ 回 归 ” 到 所 有 男子 的 平均 身高 ， 用 高 尔 顿 的 话说 ， 这 是 “回归 到 
中 等 

回归 分 析 是 被 用 来 研究 一 个 被 解释 变量 (Explained Variable ) 与 一 个 或 多 个 解释 变量 
(Explanatory Variable) 之 间 关 系 的 统计 技术 。 被 解释 变量 有 时 也 被 称 为 因 变量 (Dependent 
Variable)， 与 之 相对 应 地 ， 解 释 变 量 也 被 称 为 自 变量 (Independent Variable)。 回 归 分 析 的 意义 
在 于 通过 重复 抽样 获得 的 解释 变量 的 已 知 或 设 定 值 来 估计 或 者 预测 被 解释 变量 的 总 体 均 值 。 


在 高 尔 顿 的 普遍 回归 规律 研究 中 ， 他 的 主要 兴趣 在 于 发 现 为 什么 人 口 的 身高 分 布 有 一 种 稳 
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定性 。 我 们 现在 关心 的 是 ， 在 给 定 父 辈 身高 的 条 件 下 ， 找 出 儿 辈 平均 身高 的 变化 规律 。 也 就 是 
一 旦 知道 了 父辈 的 身高 ， 怎 样 预测 儿 辈 的 平均 身高 。 图 10-1 展示 了 对 应 于 设 定 的 父亲 身高 ， 儿 
子 在 一 个 假想 人 口 总 体 中 的 身高 分 布 情况 。 不 难 发 现 ， 对 于 任 一 给 定 的 父亲 身高 ， 我 们 都 能 

图 中 确定 出 儿子 身高 的 一 个 分 布 范围 ， 同 时 随 着 父亲 身高 的 增加 ， 儿 子 的 平均 身高 也 会 增加 。 
为 了 更 加 清晰 地 表示 这 种 关系 ， 在 散 点 图 上 勾画 了 一 条 描述 这 些 数据 点 分 布 规律 的 直线 ， 用 来 
表明 被 解释 变量 与 解释 变量 之 间 的 关系 ， 即 儿子 的 平均 身高 与 父亲 身高 之 间 的 关系 。 这 条 直线 
就 是 所 谓 的 回归 线 ， 后 面 我 们 还 会 对 此 进行 详细 讨论 。 





儿子 身高 








图 10-1 父亲 身高 与 儿子 身高 的 关系 
在 回归 分 析 中 ， 变 量 之 间 的 关系 与 物理 学 公式 中 所 表现 的 那 种 确定 性 依赖 关系 不 同 。 回 归 











分 析 中 因 变 量 与 自 变量 之 间 所 呈现 出 来 的 是 一 种 统计 性 依赖 关系 。 在 变量 之 间 的 统计 依赖 关系 
中 ， 主 要 研究 的 是 随机 变量 ， 也 就 是 有 着 概率 分 布 的 变量 。 但 是 函数 或 确定 性 依赖 关系 中 所 要 
处 理 的 变量 并 非 是 随机 的 ， 而 是 一 一 对 应 的 关系 。 例 如 ， 和 粮食 产 量 对 气温 、 降 雨 和 施肥 的 依赖 
关系 是 统计 性 质 的 。 这 个 性 质 的 意义 在 于 : 这 些 解释 变量 固然 重要 ， 但 并 不 能 据 此 准确 地 预测 
粮食 的 产量 。 首 先是 因为 对 这 些 变量 的 测量 有 误差 ， 其 次 是 还 有 很 多 影响 收成 的 因素 ， 很 难 一 
一 列举 。 事 实 上 ， 无 论 我 们 考虑 多 少 个 解释 变量 都 不 可 能 完全 解释 粮食 产量 这 个 因 变 量 ， 毕 竟 
粮食 作物 的 生长 过 程 是 受到 许 许 多 多 随机 因素 影响 的 。 

与 回归 分 析 有 密切 关联 的 另外 一 种 技术 是 相关 分 析 ， 但 二 者 在 概念 上 仍然 具有 很 大 差别 。 
相关 分 析 是 用 来 测度 变量 之 间 线 性 关联 程度 的 一 种 分 析 方 法 。 例 如 ， 我 们 常常 会 研究 吸烟 与 肺 
癌 发 病 率 、 金 融 发 展 与 经 济 增长 等 之 间 的 关联 程度 。 而 在 回归 分 析 中 ， 我 们 对 变量 之 间 的 这 种 
关系 并 不 感 兴 趣 ， 回 归 分 析 更 多 的 是 通过 解释 变量 的 设 定 值 来 估计 或 预测 因 变 量 的 平均 值 。 回 
归 与 相关 在 对 变量 进行 分 析 时 是 存在 很 大 分 歧 的 。 在 回归 分 析 中 ， 对 因 变 量 和 自 变量 的 处 理 方 
法 上 存在 着 不 对 称 性 。 此 时 ， 因 变量 被 当 作 是 统计 的 、 随 机 的 ， 也 就 是 存在 着 一 个 概率 分 布 ， 
而 解释 变量 则 被 看 成 是 〈 在 重复 抽样 中 ) 取 有 规定 值 的 一 个 变量 。 因 此 在 图 10-1 中 ， 我 们 假定 
父亲 的 身高 变量 是 在 一 定 范围 内 分 布 的 ， 而 儿子 的 身高 却 反 映 在 重复 抽样 后 的 一 个 由 回归 线 给 
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出 的 稳定 值 。 但 在 相关 分 析 中 , 我 们 将 对 称 地 对 待 任何 变量 , 即 因 变 量 和 自 变 量 之 间 不 加 区 别 。 
例如 ， 同 样 是 分 析 父 亲身 高 与 儿子 身高 之 间 的 相关 性 ， 那 么 这 时 我 们 所 关注 的 将 不 再 是 由 回归 
线 给 出 的 那个 稳定 值 ， 儿 子 的 身高 变量 也 是 在 一 定 范围 内 分 布 的。 大 部 分 的 相关 性 理论 都 建立 
在 变量 的 随机 性 假设 上 ， 而 回归 理论 往往 假设 解释 变量 是 固定 的 或 非 随机 的 。 

虽然 回归 分 析 研 究 是 一 个 变量 对 另外 一 个 或 几 个 变量 的 依赖 关系 ， 但 它 并 不 意味 着 因果 关 
系 。 葛 里 斯 。 肯 达 尔 (Maurice Kendall) 和 艾 伦 。 斯 图 亚 蒂 (Alan Stuart) 曾经 指出 :“ 一 个 统 
计 关 系 式 ， 不 管 多 强 也 不 管 多 么 有 启发 性 ， 都 永远 不 能 确立 因果 关系 的 联系 ， 对 因果 关系 的 理 
念 必 须 来 自 统计 学 以 外 ， 最 终 来 自 这 种 或 那 种 理论 。” 比 如 前 面谈 到 的 粮食 产量 的 例子 中 ， 将 粮 
食 产 量 作为 降雨 等 因素 的 因 变 量 没有 任何 统计 上 的 理由 ， 而 是 出 于 非 统计 上 的 原因 。 而 且 常 识 
还 告诉 我 们 不 能 将 这 种 关系 倒转 , 即 我 们 不 可 能 通过 改变 粮食 产量 的 做 法 来 控制 降雨 ,再 比如 ， 
古人 将 月 食 归 因 于 “天 狗 吃 月 ”所 以 每 当 发 生 月 食 时 , 人 们 就 会 敲 锣 打鼓 意图 吓 走 所 谓 的 天 狗 。 
而 且 这 种 方法 屡试不爽 ， 只 要 人 们 敲 锣 打鼓 一 会 儿 ， 被 吃 掉 的 月 亮 就 会 恢复 原样 。 显 然 ， 敲 锣 
打鼓 与 月 食 结束 之 间 有 一 种 统计 上 的 关系 。 但 现代 科技 告诉 我 们 月 食 仅仅 是 一 种 自然 现象 ， 它 
与 敲 锣 打鼓 之 间 并 没有 因果 联系 ， 事 实 上 即使 人 们 不 项 馏 打鼓， 被 吃 掉 的 月 亮 也 会 恢复 原状 。 
总 之 ， 统 计 关 系 本 身 不 可 能 意味 着 任何 因果 关系 。 要 谈 及 因果 关系 必须 进行 先 验 的 或 理论 上 的 
岂 考 ， 





10.2 回归 的 基本 概念 


本 节 将 从 构建 最 简单 的 回归 模型 开始 ， 结 合 具 体例 子 向 读者 介绍 与 回归 分 析 相 关 的 一 些 基 
本 概念 。 随 着 学 习 的 深入 ， 我 们 渐渐 会 意识 到 ， 更 为 一 般 的 多 变量 之 间 的 回归 分 析 ， 在 许多 方 
面 都 是 最 简 情 形 的 逻辑 推广 。 
10.2.1 总 体 的 回归 函数 

经 济 学 中 的 需求 法 则 认为 ， 当 影响 需求 的 其 他 变量 保持 不 变 时 ， 商 品 的 价格 和 需求 量 之 间 
星 有 反 向 变动 的 关系 ， 即 价格 越 低 ， 需 求 量 越 多 ; 价格 越 高 ， 需 求 量 越 少 。 据 此 ， 假 设 总 体 回 归 
直线 是 线性 的 ， 便 可 以 用 下 面 的 模型 来 描述 需求 法 则 。 

E(Y|Xi) = Bo + BiXi 

这 是 直线 的 数学 表达 式 ， 它 给 出 了 与 具体 的 Xx 值 相对 应 的 (或 条 件 的 ) 了 的 均值 ， 即 Y 的 条 件 期 
望 或 条 件 均 值 。 下 标 i 代 表 第 i 个 子 总 体 ， 读 作 “ 在 X 取 特定 值 X% 时 ,Y 的 期 望 值 ”。 该 式 也 称 为 非 
随机 的 总 体 回 归 方 程 。 

这 里 需要 指出 ，E(Y| 太 ) 是 不 的 函数 ， 这 意味 着 Y 依 赖 于 X， 也 称 为 Y 对 X 的 回归 。 回 归 可 以 
简单 地 定义 为 在 给 定 X 值 的 条 件 下 Y 值 分 布 的 均值 ， 即 总 体 回归 直线 经 过 Y 的 条 件 期 望 值 ， 而 上 
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式 就 是 总 体 回归 函数 的 数学 形式 。 其 中 ,po 和 pi 为 参数 ,也 称 为 回归 系数 。 Bo 又 称 为 截 距 ,Bi 又 
称 为 斜率 。 和 斜率 度量 了 X 每 变动 一 个 单位 ，Y 的 均值 的 变化 率 。 

回归 分 析 就 是 条 件 回归 分 析 ， 即 在 给 定 自 变量 的 条 件 下 ， 分 析 因 变量 的 行为 。 所 以 ， 通 常 
可 以 省 略 “ 条 件 ” 二 字 ， 表 达 式 E(Y|Xi) 也 简写 成 E(Y)。 


10.2.2 ”随机 干扰 的 意义 

现 通 过 一 个 例子 来 说 明 随机 干扰 项 的 意义 。 表 10-1 给 出 了 21 种 车 型 燃油 消耗 (单位 : 升 / 
100 干 米 ) 和 车 重 (单位 : 千克 )。 下 面 我 们 在 R 中 使 用 下 列 命令 读 入 数据 文件 , 并 绘制 散 点 图 ， 
还 可 以 用 一 条 回归 线 拟 合 这 些 散 点 。 
Cars <- read.csv("c:/racv.csv") 
plot (lpl00km ~ mass.kg, data=cars, 


xlab="Mass (kg)", ylab="Fuel] consumption (1/100km)") 
abline (lm(lpl00km ~ mass.kg, data = cars)) 


Ye 


表 10-1 车 型 及 相关 数据 


车 型 燃油 消耗 〈 升 /100 千 米 ) 车 重 (千克 ) 

































































Alpha Romeo 9.5 1242 
Audi A3 8.8 1160 
BA Falcon Futura 12.9 1692 
_ Chrysler PT Cruiser Classic 9.8 1412 
Commodore VY Acclaim 12.3 1558 
Falcon AU II Futura 1545 
Holden Barina 1062 
_ Hyundai Getz 980 
Hyundai LaVita 1248 
Kia Rio 1064 
Mazda 2 1068 
Mazda Premacy __ 1308 
Mini Cooper 8.3 1050 
Mitsubishi Magna Advance 1491 
Mitsubishi Verada AWD 12.4 1643 
Peugeot 307 9.1 设 认 





Suzuki Liana 


Toyota Avalon CSX 


1140 
1520 
Toyota Camry Ateva V6 1505 


8.3 
Toyota Corolla Ascent 7.9 1103 
7.8 


1081 





Toyota Corolla Conquest 
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从 表 10-1 中 不 难看 出 ， 车 的 燃油 消耗 与 车 重 呈 正 向 关系 ， 即 车 辆 越 重 ， 燃 油 消耗 越 高 。 如 

果 用 数学 公式 来 表述 这 种 关系 ， 很 自然 地 会 想到 采用 直线 方程 来 将 这 种 依赖 关系 表示 成 下 式 。 
Yi = E(Y)+ ei = Bo + BiXi+ ui 
其 中 ，wi 表 示 误 差 项 。 上 式 也 称 为 随机 总 体 回归 方程 。 

易 见 ， 某 一 款 车 型 的 燃油 消耗 量 等 于 两 个 部 分 的 和 : 第 1 部 分 是 由 相应 重量 决定 的 燃油 消 
耗 期 望 EB(7) = Bo + B1X;:， 也 就 是 在 重量 取 X: 时 ， 回 归 直 线 上 相对 应 的 点 ， 这 一 部 分 称 为 系统 的 
或 者 非 随 机 的 部 分 ; 第 2 部 分 wj 称 为 非 系统 的 或 随机 的 部 分 ， 在 本 例 中 由 除了 车 重 以 外 的 其 他 
因素 所 决定 。 如 图 10-2 所 示 为 燃油 消耗 与 车 重 的 关系 。 


oo 
ES 


12 


燃油 消耗 ( 升 /100 干 米 ) 
10 





1000 1100 1200 1300 1400 1500 1600 1700 
车 重 《千克 ) 


图 10-2 燃油 消耗 与 车 重 的 关系 


误差 项 ui 是 一 个 随机 变量 ， 因 此 ， 其 取 值 无 法 先 验 地 知晓 ， 通 常用 概率 分 布 来 描述 它 。 随 
机 误差 项 可 能 代表 了 人 类 行为 中 一 些 内 在 的 随机 性 。 即 使 模型 中 己 经 包含 了 所 有 的 决定 燃油 消 
耗 的 有 关 变 量 ， 燃 油 消耗 的 内 在 随机 性 也 会 发 生变 化 ， 这 是 做 任何 努力 都 无 法 解释 的 。 即 使 人 
类 行为 是 理性 的 ， 也 不 可 能 是 完全 可 以 预测 的 。 所 以 在 回归 方程 中 引入 ui 是 希望 可 以 反映 人 类 
行为 中 的 这 一 部 分 内 在 随机 性 。 

此 外 ， 随 机 误差 项 可 以 代表 测量 误差 。 在 收集 、 处 理 统计 数据 时 ， 由 于 仪器 的 精度 、 操 作 
人 员 的 读 取 或 登记 误差 , 总 是 会 导致 有 些 变量 的 观测 值 并 不 精准 地 等 于 实际 值 。 所 以 误差 项 ui 也 
代表 了 测量 误差 。 

随机 误差 项 也 可 能 代表 了 模型 中 并 未 包括 的 变量 的 影响 。 有 时 在 建立 统计 模型 时 ， 并 非 事 
无 巨细 、 无 所 不 包 的 模型 就 是 最 好 的 模型 。 恰 恰 相反 ， 有 时 只 要 能 说 明 问题 ， 建 立 的 模型 可 能 
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越 简单 越 好 。 即 使 知道 其 他 变量 可 能 对 因 变 量 有 影响 ， 我 们 也 倾向 于 将 这 些 次 要 因素 归 入 随机 
误差 项 uj 中 。 


10.2.3 ”样本 的 回归 函数 


如 何 求 得 总 体 回归 函数 中 的 参数 Bo 和 Pi 呢 ?” 显 然 在 实际 应 用 中 ， 我 们 很 难 获 知 整个 总 体 的 
全 部 数据 。 更 多 的 时 候 ， 我 们 仅 有 来 自 总 体 的 一 部 分 样本 。 于 是 任务 就 变 成 了 根据 样本 提供 的 
言 息 来 估计 总 体 回归 函数 。 下 面 来 看 一 个 类 别 数据 的 例子 。 


一 名 园艺 师 想 研 究 某 种 树木 的 树龄 与 树 高 之 间 的 关系 , 于 是 他 随机 选 定 了 24 株 树 龄 在 2~7 
年 的 树苗 ， 每 个 特定 树龄 选择 4 棵 ， 并 记录 下 每 棵 树苗 的 高 度 ， 具体 数 据 如 表 10-2 所 示 。 表 中 
同时 给 出 了 每 个 树龄 对 应 的 平均 树 高 , 例如 对 于 树龄 为 2 的 4 棵 树苗 ,它们 的 平均 树 高 是 5.35。 
但 在 这 个 树龄 下 ， 并 没有 哪 棵 树苗 的 树 高 恰好 等 于 5.35。 那 么 我 们 如 何 解 释 在 某 一 个 树龄 下 ， 
有 具体 某 一 棵 树苗 的 树 高 呢 ? 不 难看 出 每 个 树龄 对 应 的 一 棵 树苗 的 高 度 等 于 平均 树 高 加 上 或 减 去 
某 一 个 数量 ， 用 数学 公式 表达 即 为 : 

Yj = Bo + PiXi + uij 


在 某 一 个 树龄 :下 ， 第 / 棵 树苗 的 高 度 可 以 看 作 两 个 部 分 的 和 第 1 部 分 为 该 树龄 下 所 有 树苗 的 
平均 树 高 ， 即 po + PX;， 有 反映 在 图 形 上 ， 就 是 在 此 树龄 水 平 下 ， 回 归 直 线 上 相对 应 的 点 ， 另 一 
部 分 是 随机 项 uij。 


表 10-2 ” 树 高 与 树龄 




















树龄 树 高 平均 树 高 
国 5.6 4.8 5.350 
3 62 5.9 6.150 
4 62 6.7 6.500 
5 7.1 7.3 . 7.050 
6 72 75 7.8 7.575 
7 8.9 92 8.5 8.7 8.825 


在 上 述 例子 中 ， 我 们 并 无 法 获知 所 有 树苗 的 高 度数 据 ， 而 仅仅 是 从 每 个 树龄 中 抽取 了 4 标 
树苗 作为 样本 。 而 且 类 别 数 据 也 可 以 向 非 类 别 数据 转换 ， 我 们 也 会 在 后 面 演示 R 中 处 理 这 类 问 
题 的 方法 。 

样本 回归 函数 可 以 用 数学 公式 表示 为 : 

= po+PBxXi 
其 中 名 是 总 体 条 件 均值 ECY|XiD) 的 估计 量 ， 记 和 房 分 别 表示 Bo 和 ;的 估计 量 。 并 不 是 所 有 样本 数 
据 都 能 准确 地 落 在 各 自 的 样本 回归 线 上 ， 因 此 ， 与 建立 随机 总 体 回归 函数 一 样 ， 我 们 需要 建立 
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随机 的 样本 回归 函数 。 即 : 
¥i = 房 + 记 和 +ei 


式 中 ，e; 表 示 ui; 的 估计 量 。 通 常 把 ej; 称 为 残 差 (Residual)。 从 概念 上 讲 ， 它 与 uj 类似， 样本 回归 
函数 中 生成 ej 的 原因 与 总 体 回归 函数 中 生成 wi 的 原因 是 相同 的 。 


回归 分 析 的 主要 目的 是 根据 样本 回归 函数 
Y=po+PhxXite 
来 估计 总 体 回归 函数 
Yi = pot+ PBXit+ ui 


样本 回归 函数 是 总 体 回归 函数 的 近似 。 那 么 能 否 找 到 一 种 方法 ， 使 得 这 种 近似 尽 可 能 地 接 
近 真 实 值 ? 换言之 , 一 般 情况 下 很 难 获得 整个 总 体 的 数据 , 那么 如 何 建立 样本 回归 函数 , 使 得 
和 记 尽 可 能 接近 Bo 和 Bi 呢 ? 我 们 将 在 10.3 节 介 绍 相关 技术 。 


10.3 回归 模型 的 估计 

本 节 介 绍 一 元 线性 回归 模型 的 估计 技术 , 并 结合 10.2.3 节 中 给 出 的 树龄 与 树 高 关系 的 例子 ， 
演示 在 R 中 进行 线性 回归 分 析 的 方法 。 
10.3.1 普通 最 小 二 乘法 原理 


在 回归 分 析 中 ， 最 小 二 乘法 是 求解 样本 回归 函数 时 最 常 被 用 到 的 方法 。 本 节 就 来 介绍 它 的 

基本 原理 。 一 元 线性 总 体 回归 方程 为 : 

Yi = pbo + PiXit+ ui 
由 于 总 体 回归 方程 不 能 进行 参数 估计 ， 因 此 只 能 对 样本 回归 函数 

Yi = po +BXit+ ei 
进行 估计 。 因 此 有 : 

ei=Y -P=Y -po-pBxX 

从 上 式 可 以 看 出 , 残 差 e; 是 % 的 真实 值 与 估计 值 之 差 。 估 计 总 体 回 归 函 数 的 最 优 方法 是 ,选择 PB0、 


Pi 的 估计 值 库 、 房 ， 使 得 残 差 ei 尽 可 能 小 。 最 小 二 乘法 的 原则 是 选择 合适 的 参数 应 、 房 ， 使 得 
全 部 观察 值 的 残 差 平 方 和 为 最 小 。 


最 小 二 乘法 用 数学 公式 可 以 表述 为 : 
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min > 好 三 > 人 = 2 0 -pbo— BX) 
总 而 言 之 ， 最 小 二 乘 原 理 就 是 所 选择 的 样本 回归 函数 使 得 所 有 Y 的 估计 值 与 真实 值 差 的 平方 和 
为 最 小 。 这 种 确定 参数 应 和 房 的 方法 就 叫 作 最 小 二 乘法 。 
对 于 二 次 函数 y = ax? +b 来 说 , 当 a > 0 时 , 函数 图 形 的 开口 朝 上 ,所 以 必定 存在 极 小 值 。 
根据 这 一 性 质 , 因为 2 ez 是 名 和 房 的 二 次 函数 ,并且 是 非 负 的 , 所 以 ez 的 极 小 值 总 是 存在 的 。 
根据 微 积 分 中 的 极 值 原 理 ， 当 2 ez 取得 极 小 值 时 ，2e? 对 记 和 房 的 一 阶 偏 导数 为 零 ， 即 : 











OFe? aZet _ | 
ob "ob 
由 于 
2 = 0 -BBx) = 2, [0 PX) + 2polY, — BXi)] 
则 得 : 
azez "ee 
2 0 
Ze "WN 
十 =-2》 (Y.-B Bx)Xi=0 


即 : 
2 =nbo+Bh x 
> x = 高 六 遇 + > xX 
以 上 两 式 构 成 了 以 岂 和 房 为 未 知 数 的 方程 组 ， 通 常 叫 作 正规 方程 组 ， 或 简称 正规 方程 。 解 
正规 方程 ， 得 到 : 


» _ EX? Y— EX XY 
2 ny xX? — FX) 
3 _ NZXiY— DXiD Yi 


i 
等 式 左边 的 各 项 数值 都 可 以 由 样本 观察 值 计算 得 到 。 由 此 便 可 求 出 Bp,、B, 的 估计 值 馈 、B。 
若 设 : 


则 可 以 将 记 的 表达 式 整理 为 : 
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bo=Y—PX 
由 此 便 得 到 了 总 体 截 距 Bo 的 估计 值 。 其 中 ， 记 的 表达 式 如 下 : 
a _ EXiY —nXY 
1 YX2—nX? 


这 也 就 是 总 体 和 斜率 Bj 的 估计 值 。 
为 了 方便 起 见 ， 在 实际 应 用 中 ， 经 常 采用 离 差 的 形式 表示 良和 房 。 为 此 设 : 
X=X—X, y=%—Y 
因为 
Dx = D4 = 导 ( 史 = 风 = > Cr — XY — XY + XY) 


= 》 XY 3 7 Xtndy= > XY = 
方 于 = D0 —_X)? = -28》 + nx? = —nx2 


所 以 所 、 启 的 表达 式 可 以 写成 : 





10.3.2 一 元 线性 回归 的 应 用 


10.3.1 节 中 我 们 已 经 给 出 了 最 小 二 乘法 的 基本 原理 ， 而 且 还 给 出 了 计算 斜率 的 几 种 不 同方 
法 。 现 在 就 以 树 高 与 树龄 关系 的 数据 为 例 来 实际 计算 一 下 回归 函数 的 估计 结果 。 


正如 前 面 曾经 说 过 的 那样 , 类 别 数据 可 以 转化 成 非 类 别 数据 , 进而 完成 一 元 线性 回归 分 析 。 
其 方法 就 是 通过 重复 类 别 项 从 而 将 原来 以 二 维 数据 表示 的 因 变 量 转 化 为 一 维 数 据 的 形式 。 例 如 ， 
在 R 中 可 以 采用 下 列 方法 组 织 树 高 与 树龄 关系 的 数据 。 
> Plants <- qata.frame(age = rep(2:7, rep(4, 6)) 7 
+'height ="c(S -0rd Se3r Shh G2 ND Omron 
"Omar Gly Biddy ore se KO , 
Fa Vdr Ty TMB Do 02 dS 

上 述 代码 将 会 得 到 如 表 10-3 所 示 的 数据 组 织 形式 。 根据 10.3.1 节 所 得 出 的 计算 公式 , 我 们 
还 需 计 算 相 应 的 好 和 XiYi;， 这 些 数 据 也 一 并 在 表 中 列 出 。 
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表 10-3 ”树龄 与 树 高 数据 

















6 
7 
| 6 | 1 | so | 1 | ss | «» | 
| sx | ww | wi | | w | ww | 
基于 表 10-3 中 的 数据 进而 可 以 算得 : 

X=45, Y = 6.908 





nx2=486, nxXY=746.1 
EX2=556, ZXY; = 790.5 
进而 可 以 算得 模型 中 估计 的 截 距 和 斜率 如 下 : 
记 = (ZXi8 —nXY)/(LX? 一 7n72) ~ 0.63429 
bo=Y—PBX~4.05405 
由 此 便 得 到 最 终 的 估计 模型 为 : 
$$ = 4.05405 + 0.63429X, 
或 
Y= 4.05405 + 0.63429X; + e; 


当然 ， 在 R 中 并 不 需要 这 样 繁杂 的 计算 过 程 ， 仅 需 几 条 简单 的 命令 就 可 以 完成 数据 的 线性 
回归 分 析 。 示 例 代码 如 下 。 


> plants.lm <- lm(height ~ age data = plants) 
> summary (plants.1m) 


由 上 述 代 码 产 生 的 模型 估计 如 下 ,其 中 截 距 的 估计 值 由 Intercept 项 中 的 Estimate 条 目 给 出 ， 
斜率 的 估计 值 由 age 项 中 的 Estimate 条 目 给 出 ， 具 体 数值 已 经 用 方 框 标 出 。 这 些 数 据 与 我 们 人 
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工 算得 的 结果 是 一 致 的 。 输 出 结果 中 的 其 他 数据 将 在 后 续 的 篇 幅 中 加 以 讨论 。 


Ca 
lm(formula = height ~ age, data = plants) 


Residuals: 
Min 1Q Median 30 Max 
-0.65976 -0.224176 -0.00833 0.21524 0.70595 


Coefficients: 
batimate Sta, Error lt vale Pr(>1t)) 
(Intercept) |4.05409| DToBTB 20 LIT LG TR 


age 0.63429 0. 04026 "5 6 dB 


SgnLut, co WU 


Residual standard error: 0.3368 on 22 degrees of freedom 
Multiple RSduared: 0.9186. Adiusted R-squared: 0.9149 
rotatieties Ras.2 Sm Ll angd 22 Diy Prva |. Sie- 


模型 的 拟 合 结果 由 图 10-3 给 出 ， 代 码 如 下 。 


>| PLoL(neioght ~ age: data = plants) 
> abline(plants,. Im) 


height 








age 


图 10-3 线性 回归 模型 的 拟 合 结果 





10.3.3 经典 模型 的 基本 假定 
为 了 对 回归 估计 进行 有 效 的 解释 ， 就 必须 对 随机 干扰 项 w; 和 解释 变量 X; 进 行 科学 的 假定 ， 
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这 些 假定 称 为 线性 回归 模型 的 基本 假定 。 主 要 包括 以 下 几 个 方面 。 

1. 零 均值 假定 

由 于 随机 扰动 因素 的 存在 ,下 将 在 其 期 望 附近 上 下 波动 ， 如 果 模 型 设 定 正确 ,世相 对 于 其 期 
望 的 正 偏 差 和 负 偏 差 都 会 有 ， 因 此 随机 项 wj 可 正 可 负 ， 而 且 发 生 的 概率 大 致 相同。 平均 地 看 ， 
这 些 随机 扰动 项 有 相互 抵消 的 趋势 。 

2. 同方 差 假定 

对 于 每 个 X:， 随 机 干扰 项 uj 的 方差 等 于 一 个 常数 go?， 即 解释 变量 取 不 同 值 时 ，wi; 相 对 于 各 
自 均值 的 分 散 程 度 是 相同 的 。 同 时 也 不 难 推 证 因 变 量 ¥ 与 wy 具有 相同 的 方差 。 因 此 ， 该 假定 表 
明 ， 因 变量 y 可 能 取 值 的 分 散 程 度 也 是 相同 的 。 

前 两 个 假设 可 以 用 公式 wj~N(0,o7?) 来 表述 ， 通 常 我 们 都 认为 随机 扰动 (噪声 ) 符合 一 个 均 
值 为 0、 方 差 为 o? 的 正 态 分 布 。 

3. 相互 独立 性 

随机 扰动 项 彼此 之 间 都 是 相互 独立 的 。 如 果 王 扰 的 因素 是 全 随机 的 、 相 互 独立 的 ， 那 么 变 
量 双 的 序列 值 之 间 也 是 互 不 相关 的 。 


4. 因 变 量 与 自 变 量 之 间 满 足 线性 关系 


这 是 建立 线性 回归 模型 所 必需 的 。 如 果 因 变量 与 自 变量 之 间 的 关系 是 杂乱 无 章 、 全 无 规律 
可 言 的 ， 那 么 谈论 建立 线性 回归 模型 就 显然 是 毫 无 意义 的 。 


R 中 提供 了 4 种 基本 的 统计 图 形 ， 用 于 对 线性 回归 模型 的 假设 基础 进行 检验 。 下 面 就 用 车 
重 与 燃油 消耗 的 例子 来 说 明 这 几 种 图 形 的 意义 。 在 R 中 输入 下 列 代码 ， 则 可 绘制 出 如 图 10-4 
所 示 的 4 张 统 计 图 形 。 
GaES lm <- Tm(lpl100kmn ~ maas .kgr "data = Gars) 


> par(mfrow = c(2, 2)) 
> plot (cars.,. 1m) 


图 10-4 中 的 左上 图 是 一 幅 残 差 对 拟 合 值 的 散 点 图 。 图 中 的 x 轴 是 拟 合 值 ， 也 就 是 当 i 取 不 同 
值 时 ， 相 应 的 久 值 。y 轴 表示 的 是 残 差 值 ， 即 e; 值 。 该 图 用 于 检验 回归 模型 是 否 合理 、 是 否 有 异 
方差 性 以 及 是 否 存 在 异常 值 。 其 中 附加 线 是 采用 局 部 加 权 回 归 散 点 修 匀 法 (LOWESS，LOcally 
WEighted Scatterplot Smoothing) 绘 制 的 。 如 果 残 差 的 分 布 大 致 围绕 着 x 轴 , 或 附加 线 基 本 贴近 x 轴 ， 
则 模型 基本 是 无 偏 的 ， 另外， 如 果 残 差 的 分 布 范围 不 随 预 测 值 的 改变 而 大 幅 变 化 ， 则 可 以 认为 
同方 差 假设 成 立 。 所 以 图 形 显示 我 们 的 模型 基本 上 没有 什么 问题 。 
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Residuatls vs Fitted Normal Q-Q 


Residuals 
Standardized residuals 





Theoretical Quantiles 


Residuals vs Leverage 


a 一 
2 
o 


o 
A 


lStandardized residuals! 
Standardized residuals 





0, 
- Covks distahce 





0.00 005 010 015 020 


Fitted values Leverage 
图 10-4 ”线性 回归 模型 的 4 张 统计 图 形 


图 10-4 中 的 右上 图 展示 了 一 幅 标 准 化 残 差 的 QQ 图 ， 即 将 每 个 残 差 都 除 以 残 差 标准 差 ， 然 
后 再 将 结果 与 正 态 分 布 做 比较 。 本 书 前 面 也 已 经 对 QQ 图 进行 过 较为 详细 的 介绍 ， 理 想 的 结果 
是 QQ 图 中 的 散 点 排列 成 一 条 直线 , 当然 适度 的 偏离 也 是 可 以 接受 的 。 毕 竟 我 们 的 采样 点 有 限 ， 
根据 中 央 极 限定 理 ， 我 们 可 以 认为 当 采 样 点 的 数量 足够 大 时 ， 其 结果 会 更 加 逼近 正 态 分 布 。 注 
意 到 在 应 用 线性 回归 分 析 时 , 随机 干扰 项 wi; 应 当 满 足 正 态 分布 这 个 假定 , 而 残 差 相当 于 是 对 wi 的 
估计 。 如 果 图 中 散 点 的 分 布 较 大 地 偏离 了 直线 ， 表 明 残 差 的 分 布 是 非 正 态 的 或 者 不 满足 同方 差 
性 的 ， 那 么 随机 干扰 的 正太 性 自然 也 是 不 满足 的 。 在 我 们 给 出 的 例子 中 ， 残 差 的 正 态 性 得 到 了 
较 好 的 满足 。 


图 10-4 中 的 左下 图 作用 大 致 与 第 一 幅 图 相同 。 图 中 的 x 轴 是 拟 合 值 ,y 轴 表示 的 是 相应 的 标 
准 化 残 差 值 绝对 值 的 平方 根 。 如 果 标 准 化 残 差 的 平方 根 大 于 1.5， 则 说 明 该 样本 点 位 于 95% 置 信 
区 间 之 外 。 中 间 的 线 偏离 于 水 平 直线 的 程度 较 大 ， 则 意味 着 异 方差 性 。 尽 管 图 中 的 线 不 是 一 条 
完全 水 平 的 直线 ， 但 这 种 小 的 偏离 主要 是 因为 样本 点 的 数量 较 小 ， 所 以 图 形 显示 我 们 的 模型 基 
本 上 没有 什么 问题 。 

图 10-4 中 的 右 下 图 是 标准 化 残 差 对 杠杆 值 的 散 点 图 , 它 的 作用 是 检查 样本 点 中 是 否 有 异常 
值 。 如 果 删 除 样本 点 中 的 某 一 条 数据 ， 由 此 造成 回归 系数 变化 过 大 ， 就 表明 这 条 数据 对 回归 系 
数 的 计算 产生 了 明显 的 影响 , 这 条 数据 就 是 异常 值 .需要 好 好 考虑 是 否 在 模型 中 使 用 这 条 数据 。 
设 有 帽子 矩阵 吾 ， 该 矩阵 的 诸 对 角 线 元 素 记 为 hnii， 这 就 是 杠杆 值 (Leverage)。 杠 杆 值 用 于 评估 
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第 i 个 观测 值 离 其 余 n 一 1 个 观测 值 的 距离 有 多 远 。 对 一 元 回归 来 说 ， 其 杠杆 值 为 : 

a (Xi —X)? 

n ZXi—X) 

此 外 ， 图 中 还 添加 了 LOWESS 曲线 和 库 克 距离 (Cook's Distance) 曲线 。 库 克 距 离 用 于 诊断 各 
种 回归 分 析 中 是 否 存 在 异常 数据 。 库 克 距 离 太 大 的 样本 点 可 能 是 模型 的 强 影响 点 或 异常 值 点 ， 
值得 进一步 检验 。 一 个 通常 的 判断 准则 是 当 库 克 距 离 大 于 1 时 就 需要 引起 我 们 的 注意 , 图 中 显示 
所 有 点 的 库 克 距 离 都 在 0.5 以 内 ， 所 以 没有 异常 点 。 


在 本 节 最 后 , 我 们 尝试 在 R 中 自行 绘制 图 10-4 中 的 右 下 图 。 这 个 过 程 有 助 于 更 好 地 理解 杠 
杆 值 的 意义 。 表 10-4 给 出 了 操作 步骤 计算 所 得 的 中 间 结 果 。 这 些 计算 步骤 需要 用 到 的 3 个 值 ， 
即 斜 率 0.008024、 截 距 -0.817768 和 残 差 标准 差 0.3891， 这 些 值 都 可 以 从 线性 回归 的 输出 结果 
中 直接 得 到 。 


hii = 


表 10-4 中间 结果 数据 


Es 




























2308.574 0.049903 9.148040 0.351960 0.904549 
16912.38 0.064347 8.490072 0.309928 0.796525 
161565.7 0.207427 12.75884 0.141160 0.362786 
14872.38 0.062323 10.51212 -0.712120 -1.830170 
71798.48 0.118636 11.68362 0.616376 _ | 1.584107 








65000.72 0.111913 11.57931 -0.179310 -0.460840 
52005.72 0.099059 7.703720 -0.403720 -1.037570 


96129.53 0.142703 7.045752 -0.145750 -0.374590 
1768.002 0.049368 9.196184 











-0.296180 -0.761200 
51097.53 0.098161 7.719768 -0.419770 -1.078820 
49305.15 0.096388 7.751864 0.148136 0.380714 













322.2880 0.047938 9， 0.522376 1.342524 


677624 
57622.86 7.607432 0.692568 1.779923 


40381.86 0.087562 11.14601 -0.246020 -0.632270 
124575.4 0.170839 12.36566 0.034336 0.088245 








5047.764 0.136512 0350840 
2251429 0.029590 -0.076050 
52878.10 0.099922 -1.487310 
46204.53 0.621043 


34986.81 0.082225 8.032704 -0.132700 -0.341050 
43700.91 0.090844 7.856176 -0.056176 -0.144370 
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perro 


下 面 给 出 绘制 图 形 的 RR 代码 。 








> plot(Std Residuals ~ Leverage, We 

+ ylab-="Standardized resigunals，， | 

+ xlim=c(0, 0. 21) ， ylim-c(-2， 2) ， = "Residuals Vs rae) 

> abline(lv = 0. 由 6 = 0. > 4 oor = Oe | J ; 
> par (new=TRUE) 0 、 

> ne malo ee ,， 0 0 


执行 上 述 代 码 ， 结 果 如 图 10-5 所 示 ， 易 见 与 R 自动 生成 的 效果 一 致 。 


标准 化 残 差 








0.00 0.05 0.10 015 0.20 
杠杆 值 


图 10-5 标准 化 残 差 对 杠杆 值 的 散 点 图 


10.3.4 总 体 方 差 的 无 偏 估计 


前 面谈 到 回归 模型 的 基本 假定 中 有 这 样 一 条 : 随机 扰动 (噪声 ) 符合 一 个 均值 为 0、 方 差 为 
o? 的 正 态 分 布 ， 即 用 ui~N(0,o?) 来 表述 。 随 机 扰动 ui 的 方差 a? 又 称 为 总 体 方差 。 由 于 总 体 方差 
0? 未 知 , 而 且 随 机 扰动 项 wi 也 不 可 度量 ,， 所 以 只 能 从 ui 的 估计 量 一 一 残 差 e; 出 发 , 对 总 体 方差 0? 
进行 估计 。 可 以 证 明 总 体 方差 o? 的 无 偏 估计 量 为 : 


3 人 _ 


天 一 绝 ”。” 砚 二 史 


= 
Ee 
即 了 是 有 限 个 的 线性 组 合 ， 所 以 当 Yi = po + BiXi + wi， 同样 有 : 
Y = Bo 后 B1X 半天 


6 


证 明 : 因为 


所 以 可 得 : 
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yi=Y—Y=pot+PBXit+u— (Bot+PBiX+id) 
= P(Xi—X)+ (ui—u) = Bxit (ui— i) 


又 因为 
ei=Y -$=Y-P — Bx Wi pe 
bo=Y—PX 
所 以 有 : 
ei=Bixit (ui—D-hbx= uD- (bpB)x 
进而 有 : 


> 学 = [DB -pa 
= (Bb, Bj 二 Cu —1)”= 2(B 3 F) > Xi 一动 
对 上 式 两 边 同 时 取 期 望 ， 则 有 : 
5(2 e?)=E[B. -6) > |]+E[Y Cu- 
—2E [(&, 一 有 >》 和 (一 可 | 
然后 对 上 式 右 端 各 项 分 别 进行 整理 ， 可 得 : 
E [> -|=E De —2wi+i2)| =E [ni + > uz? 一 2 》， ui 
a 
= >》 EG) (Fs 十 SX 
izj 


1 
三 沪 下 2 = 一 0=( 人 (一 1)c? 


其 中 用 到 了 wi 互 不 相关 以 及 ui~N(0,o?) 这 两 条 性 质 。 
一 个 变量 与 其 均值 的 离 差 之 总 和 恒 为 零 ， 该 结论 可 以 简单 证 明 如 下 : 


8= 》 太 ») 7=) Xx») -D0 
又 因为 Y 是 一 个 常数 ， 所 以 有 : 
xy = > lh = =》 2 -7 x 
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Yo -7 了 >》 —X) = 2 








进而 得 到 : 
= = Er 
KY 
其 中 ， 
下 三 
好 


这 其 实说 明 房 是 Y 的 一 个 线性 函数 ， 它 是 下 的 一 个 加 权 平 均 ， 以 后 为 权 数 ， 从 而 它 是 一 个 线性 估 
计量 。 同 理 ， 记 也 是 一 个 线性 估计 。 易 证 后 As 


DT DY Tx? 5 
DD be | 人 
这 =》 


Bi =) k= > ki(Bo + BiXi+ ui) 


= Kit: KXit Dy ki = Bi+ Yk 
BpB= > ka 


以 此 为 基础 可 以 继续 前 面 的 整理 过 程 ， 其 中 再 次 用 到 了 wi 的 互 不 相关 性 : 
E[(B, -86) > x —D]= E>, ke 2 xu- 可 | 
=E[Y kas) Gu xd] =E[ ka > x uy ke > xz 
=E|Y ke x] =E [> rx]=07 


此 外 还 有 : . 
E [G6, = BY) 六 x?| 一 曙 |(> kiw) py 好 | 
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时 区 人 5 =E[y 0) /5 = 


综 上 可 得 : 
E (2 ez) =( 一 1)c2+a2 一 202=( 人 (一 2)a2 
原 结论 得 证 ， 可 知 6? 是 o? 的 无 偏 估 计量 。 
10.3.5 ”估计 参数 的 概率 分 布 
中 央 极 限定 理 表 明 ， 对 于 独立 同 分 布 的 随机 变量 ， 随 着 变量 个 数 的 无 限 增加 ， 其 和 的 分 布 
近似 服从 正 态 分 布 。 随 机 项 wi 代表 了 在 回归 模型 中 没有 单列 出 来 的 其 他 所 有 影响 因素 。 在 众多 


的 影响 因素 中 ， 每 种 因素 对 的 影响 可 能 都 很 微弱 ， 如 果 用 wi 来 表示 所 有 这 些 随机 影响 因素 之 
和 ， 则 根据 中 央 极 限定 理 ， 就 可 以 假定 随机 误差 项 服从 正 态 分 布 ， 即 ui~N(0,0o?)。 


因为 如 和 记 是 Yi 的 线性 函数 ， 所 以 和 记 的 分 布 取决 于 i。 而 六 与 随机 干扰 项 wi 具有 相同 类 
型 的 分 布 , 所 以 为 了 讨论 和 房 的 概率 分 布 , 就 必须 对 ui 的 分 布 做 出 假定 。 这 个 假定 十 分 重要 ， 
如 果 没 有 这 一 假定 , fo。 和 fi 的 概率 分 布 就 无 法 求 出 , 再 讨论 二 者 的 显著 性 检验 也 就 无 的 放 矢 了 。 

根据 随机 项 wi 的 正 态 分 布 假定 可 知 ，¥ 服 从 正 态 分 布 ， 根 据 正 态 分 布 变 量 的 性 质 ， 即 正 态 
变量 的 线性 函数 仍 服 从 正 态 分 布 ， 其 概率 密度 函数 由 其 均值 和 方差 唯一 决定 。 于 是 可 得 : 


2 
Bo~N (mn ) 








LR 
~ a? 
Bn (pF) 
并 且 记 和 房 的 标准 差分 布 为 : 
_ 2X? 
se(po) = oD 


2 
se( 记 ) = 


以 房 的 分 布 为 例 ， 如 图 10-6 所 示 ， 记 是 B61 的 无 偏 估 计量 ， 的 分 布 中心 是 B,。 易 见 ， 标 准 
差 可 以 用 来 衡量 估计 值 接近 于 其 真实 值 的 程度 ， 进 而 判定 估计 量 的 可 靠 性 。 
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easyionnaytyherabahpalNhtanmppauaabmpinhaaumphsiignamaeMberoahighn 





BY E(B:) 
~ se(p) 


图 10-6 估计 量 的 分 布 及 其 偏 移 
此 前 ， 我 们 已 经 证 明 6? 是 a2? 的 无 偏 估计 量 ， 那 么 由 此 可 知 房 和 房 的 方差 及 标准 差 的 估计 量 





Ha 








分 别 为 : 
2 sy | BR 
a se(f0)=6 [2 
var( 记 ) = se(P,) = 


元 Ef Fa 
例如 在 车 重 与 燃油 消耗 的 例子 中 , 一 元 线性 回归 的 分 析 结 果 如 下 。 其中, 截 距 的 估计 值 记 的 
标准 差 为 0.506422， 斜 率 的 估计 值 有 i 的 标准 差 为 0.000387， 这 两 个 值 已 经 用 方 框 标 出 。 


> summary (cars.1m) 




















Call:; 
lm(formila = 1pl0O0km ~ mass.kg, data = cars) 


Residuals: 
Min lo Median 30 Max 
-0.71186 -0.24574 -0.02938 0.24193 0.69276 


Coefficients: 

Retdimate Sta prror t valbue Prz (| 
(Intercept) -0.817768 5064223| -1.615 O23 
mass.kg 0.008024 " |0.000387| 20.733 1.65e.14 ww 


Bigoif. coAdes: 0 Mr QO001 xx 0O.0t De DD 0 


Residual standard error: 0.3891 on 19 degrees of freedom 
Multiple R-squared: 0.9577, Adjusted R-squared:; 0.9554 
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EF-statistio M429 on 1 and'l9 DR 和 Tvalaei 主 2653e=14 
标准 差 可 以 被 用 来 计算 参数 的 置信 区 间 。 例 如 在 本 题 中 ， po 的 95% 的 置信 区 间 为 ; 

一 0.8178 士 coozs(ts) x 0.5064 
= —0.8178 + 2:093 x 0.5064 
= (—1:878,0.242) 

同 理 可 以 计算 Bi 的 95% 的 置信 区 间 为 : 
0.008024 + coo7s(t1io) x 0.000387 
= 0.008024 + 2.093 x 0.000387 
= (0.0072, 0.0088) 


其 中 ， 因 为 残 差 的 自由 度 为 21 一 2 = 19， 所 以 数值 2.093 是 自由 度 为 19 的 t 分 布 值 。 当 然 在 R 中 
可 以 通过 如 下 代码 来 完成 上 述 计算 过 程 。 
> confint(cearns Ln) 

全， 83735 二 多 


(Intercept) -1.877722151 052421863727 
mass.kg 0.007213806 0.00883382 


10.4 ” 正 态 条 件 下 的 模型 检验 


前 面 我 们 以 样本 观察 值 为 基础 ， 应 用 最 小 二 乘法 求 得 样本 回归 直线 ， 从 而 对 总 体 回 归 直 线 
进行 拟 合 。 但 是 拟 合 的 程度 怎样 ， 必 须要 进行 一 系列 的 统计 检验 ， 从 而 对 模型 的 优 劣 做 出 合理 
的 评估 ， 本 节 就 介绍 与 模型 评估 检验 有 关 的 内 容 。 

10.4.1 拟 合 优 度 的 检验 

由 样本 观察 值 (Xi, 2 得 出 的 样本 回归 直线 为 多 = 有 + 所 X,Y 的 第 i 个 观察 值 7 与 样本 平均 

值 Y 的 离 差 称 为 的 总 离 差 ， 记 为 y; = Yi 一 了 ， 不 难看 出 总 离 差 可 以 分 成 两 部 分 ， 即 : 
n= 人 D+(-Y) 

其 中 一 部 分 入 = 针 一 了 是 通过 样本 回归 直线 计算 的 拟 合 值 与 观察 值 的 平均 值 之 差 ， 它 是 由 回归 

直线 〈 即 解释 变量 ) 所 解释 的 部 分 。 另 一 部 分 ei = Yi 一 负 是 观察 值 与 回归 值 之 差 ， 即 残 差 。 残 

差 是 回归 直线 所 不 能 解释 的 部 分 ， 它 是 由 随机 因素 、 被 忽略 掉 的 因素 、 观 察 误差 等 综合 影响 而 

产生 的 。 各 变量 之 间 的 关系 如 图 10-7 所 示 。 
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总 离 差 = 发 一 






样本 回归 函数 SRF 


~ 





Bo + BXi 








图 10-7 总 离 差 分 解 
由 回归 直线 所 解释 的 部 分 9 = 久 一 了 的 绝对 值 越 大 ， 则 残 差 的 绝对 值 就 越 小 ， 回 归 直 线 与 
样本 点 (Xi, 7) 的 拟 合 就 越 好 。 
因为 
鼻子 = (发 一 区 十 (名 一 习 
如 果 用 加 总 Y 的 全 部 离 差 来 表示 显然 是 不 行 的 ， 因 为 
D-DD= -27=n7-n7=0 
所 以 考虑 利用 加 总 全 部 离 差 的 平方 和 来 反映 总 离 差 ， 即 : 
0-7 = > [n+] 
= 7) 2 -7) 
其 中 ， 
D0)=0 


2 -7) = > ebo + BX —7) 
= (Bo -7)) eth) Xie= (BY) DY etl > Xi(Y— bo Bx) 
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注意 最 小 二 乘法 对 于 e: 有 和 零 均值 假定 , 所 以 对 其 求 和 结果 仍 为 零 。 而 上 述 式 子 中 最 后 一 项 为 零 ， 
则 是 由 最 小 二 乘法 推导 过 程 中 极 值 存在 条 件 ( 令 偏 导数 等 于 零 ) 所 保证 的 。 


于 是 可 得 : 
> -7 = 0) + (9-7) 
好 = > + 
》 好 = 人 ~ 


称 为 总 离 差 平方 和 “Total Sum of Squares)， 用 SStotal 表 示 : 


局 


称 为 残 差 平方 和 (Residual Sum of Squares)， 用 55Siesidaual 表 示 : 


=> 7) 
称 为 回归 平方 和 (Regression Sum of Squares)， 用 SSregression 表 示 。 
总 离 差 平方 和 可 以 分 解 成 残 差 平方 和 与 回归 平方 和 两 部 分 。 总 离 差分 解 公 式 还 可 以 写成 


或 者 写成 : 


其 中 ， 


SStotal = SSresidual * SSregression 
这 一 公式 也 是 方差 分 析 ANOVA 的 原理 基础 ， 这 一 点 在 后 续 的 章节 中 我 们 还 会 详细 介绍 。 


在 总 离 差 平方 和 中 ， 如 果 回 归 平 方 和 比例 越 大 ， 残 差 平 方 和 所 占 比例 就 越 小 ， 表 示 回 归 直 
线 与 样本 点 拟 合 得 越 好 ; 反之 ， 拟 合 得 就 不 好 。 把 回归 平方 和 与 总 离 差 平方 和 之 比 定义 为 样本 
判定 系数 ， 记 为 : 
R? = SSregression/S$Stotal 
判断 系数 R? 是 一 个 回归 直线 与 样本 观察 值 拟 合 优 度 的 数量 指标 ，R? 越 大 则 拟 合 优 度 就 越 好 ; 
相反 ，R? 越 小 ， 则 拟 合 优 度 就 越 差 。 
注意 R 中 指示 判定 系数 的 标签 是 “Multiple R-squared”， 例 如 在 前 面 给 出 的 树 高 与 树龄 的 例 
子 中 ，R? = 0.9186(= 91.86%)， 这 表明 模型 的 拟 合 程度 较 好 。 此 外 ，R 的 输出 中 还 给 出 了 所 谓 
的 调整 判定 系数 ， 调 整 判 定 系数 是 对 有 ?的 修正 ， 指 示 标 签 为 “Adjusted R-squared”。 例 如 ， 在 树 
高 与 树龄 的 例子 中 调整 判定 系数 大 小 为 0.9149。 
在 具体 解释 调整 判定 系数 的 意义 之 前 ， 还 需 先 考 察 一 下 进行 线性 回归 分 析 时 ，R 中 输出 的 
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另外 一 个 值 一 一 残 差 标准 误差 (Residual Standard Error)。 在 树 高 与 树龄 的 例子 中 ，R 给 出 的 数 
值 是 0.3368。 所 谓 残 差 的 标准 误差 其 实 就 是 残 差 的 标准 差 (Residual Standard Deviation )。 前 面 
我 们 已 经 证 明 过 ， 在 一 元 线性 回归 中 ， 总 体 方 差 o? 的 无 偏 估 计量 为 : 
ei _26 -有 

刀 一 二 一 台 一 九 一 2 


所 以 残 差 的 标准 差 为 : 


(n= 


人 一 区 一 
入 一 馆 


如 果 将 这 一 结论 加 以 推广 〈 即 不 仅 限于 一 元 线性 回归 )， 则 有 : 


让 SSresidual 
n 一 被 估计 之 参数 的 数量 


因为 在 一 元 线性 回归 中 , 被 估计 的 参数 只 有 Bo 和 Bi 两 个 , 所 以 此 时 被 估计 之 参数 的 数量 就 是 2。 
而 在 树 高 与 树龄 的 例子 中 ， 研 究 单元 的 数量 n = 24， 因 此 在 R 中 的 输出 结果 上 有 一 句 “on 22 


degrees of freedom ”。 


调整 判定 系数 的 定义 为 ; 
1 一 Radj = s/s? 
根据 前 面 给 出 的 公式 可 知 : 
2 Sresidual 
n—p 
其 中 ，p 是 模型 中 参数 的 数量 。 以 及 
5y = ~— 


我 们 一 般 认 为 调整 判定 系数 会 比 判定 系数 更 好 地 反映 回归 直线 与 样本 点 的 拟 合 优 度 。 那 么 
其 理据 何在 呢 ? 注 意 残 差 ei 是 扰动 项 u 的 估计 值 ， 因 为 ui 的 标准 差 o 无 法 计算 ， 所 以 借助 e: 对 其 
进行 估计 ， 而 且 也 可 以 证 明 其 无 偏 估计 的 表达 式 需要 借助 自由 度 来 进行 修正 。 另 一 方面 ， 本 书 
前 面 也 曾经 证 明 过 当 用 样本 来 估计 总 体 时 ,方差 的 无 偏 估计 需要 通过 除 以 n 一 1 来 进行 修正 。 所 
以 采用 上 述 公式 来 计算 会 得 到 更 加 准确 的 结果 。 

经 过 简单 的 代数 变换 ， 可 得 出 R24 的 另外 一 种 算式 : 


为 一 于 
-3) 
np 


sa 2 
Radi = 及 


wwaibbt.com DODOODDOD 
230 


第 10 章 一 元 线性 回归 


对 于 树 高 与 树龄 的 例子 有 : 

和 一 注 
24 一 2 
这 与 R 中 输出 的 结果 相同 。 通 常情 况 下 ，R2dj 的 值 都 会 比 R?z 的 值 略 小 ， 且 二 者 的 差异 一 般 都 不 
大 。 


10.4.2 ”整体 性 假定 检验 


如 果 随 机 变量 X 服 从 均值 为 kn、 方差 为 o? 的 正 态 分 布 ， 即 X~N(1,o?)， 则 随机 变量 
Z = (X 一 1)/o 是 标准 正 态 分 布 ， 即 Z~N(0,1)。 统 计 理 论 表明 ,标准 正 态 变量 的 平方 服从 自由 度 
为 1 的 X 分 布 ， 用 符号 表示 为 : 





R24 = 0.9186 一 (1 — 0.9186) ~ 0.9149 


Z2~X? 
其 中 ,xX 的 下 标 表示 自由 度 为 1。 正 如 均值 、 方 差 是 正 态 分 布 的 参数 一 样 ， 自 由 度 是 xX? 分 布 的 
参数 ,在 统计 学 中 自由 度 有 各 种 不 同 的 含义 ; 此 处 定义 的 自由 度 是 平方 和 中 独立 观察 值 的 个 数 。 


总 离 差 平方 和 SStotal 的 自由 度 为 n 一 1， 因 变量 共有 n 个 观察 值 ， 由 于 这 nn 个 观察 值 受 
yi = (Yi 一 了 ) = 0 的 约束 ， 当 n 一 1 个 观察 值 确定 以 后 ， 最 后 一 个 观察 值 就 不 能 自由 取 值 了 ， 
因此 SStotal 的 自由 度 为 n 一 1。 回 归 平 方 和 SSiegression 的 自由 度 是 由 自 变量 对 因 变 量 的 影响 决定 
的 ， 因 此 它 的 自由 度 取决 于 解释 变量 的 个 数 。 在 一 元 线性 回归 模型 中 ， 只 有 一 个 解释 变量 ， 所 
以 SSregression 的 自由 度 为 1。 在 多 元 回归 模型 中 , 如 果 解 释 变量 的 个 数 为 K 个 , 则 其 中 SSregression 的 
自由 度 为 k。 因 为 SSregression 的 自由 度 与 5Sresiqual 的 自由 度 之 和 等 于 SStotal 的 自由 度 ， 所 以 
SSresidual 的 自由 度 为 n 一 2。 


平方 和 除 以 相应 的 自由 度 称 为 均 方差 。 因 此 SSregression 的 均 方差 为 : 
人 2 RR ~、 S 可 
SD) (b+hn 7) 
= [B+BG+x) 7] = [7 -BR+ABr t+) 7] 


= = 站》 


而 且 还 有 SSiesiqual 的 均 方差 为 (Ye?)/(n 一 2)。 可 以 证 明 ， 在 多 元 线性 回归 的 条 件 下 ( 即 回 归 方 
程 中 有 k 个 解释 变量 X;:，i = 1,2,…,k)， 有 : 


六 一 各 
De ~x8ey 
根据 基本 的 统计 学 知识 可 知 ， 如 果 Z1 和 2, 分 别 是 自由 度 为 k1 和 ks 的 分 布 变量 ， 则 其 均 方差 
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2a/ 后 


六 三 
Z2/k2 


~F(k, kz) 


CID 
Ee/m -kD 


下 面 就 利用 F 统 计量 对 总 体 线性 的 显著 性 进行 检验 。 首 先 ， 提 出 关于 k 个 总 体 参 数 的 假设 : 
® Ho: Bi =Pb2=*…=Be=0 
e i: Bj; 不 全 为 0, i = 1,2,…,k 

进而 根据 样本 观察 值 计 算 并 列 出 方差 分 析 数 据 如 表 10-5 所 示 。 


~F(k,n—k— 1) 


表 10-5 方差 分 析 表 





pg 
_ CPE 
Fe)/n—k—1) 

对 于 给 定 的 显著 水 平 a, 查询 F 分 布 表 得 到 临界 值 太 (1,n 一 k 一 1), 如 果 F > (1,n 一 k 一 1)， 
则 拒绝 原 假设 ,说明 犯 第 一 类 错误 的 概率 非常 之 小 。 也 可 以 通过 与 这 个 F 统 计量 对 应 的 P 值 来 判 
断 ， 说 明 如 果 原 假设 成 立 ， 得 到 此 F 统 计量 的 概率 很 小 ， 即 为 P 值 。 这 个 结果 说 明 我 们 的 回归 模 
型 中 的 解释 变量 对 因 变 量 是 有 影响 的 , 即 回归 总 体 是 显著 线性 的 。 相反, 若 F < (1,n 一 kk 一)， 
则 接受 原 假设 ， 即 回归 总 体 不 存在 线性 关系 ， 或 者 说 解释 变量 对 因 变 量 没有 显著 的 影响 关系 。 

例如 ， 对 于 树龄 与 树 高 的 例子 ， 给 定 w = 0.05， 可 以 查 表 或 者 在 R 中 输入 下 列 语句 得 到 
Foos(1, 22) 的 值 。 


> qf(0.05，17 22, lower.tail = FALSE) 
[il .4.30095 














其 中 参数 lower.tail 是 一 个 逻辑 值 , 模型 情况 下 它 的 值 为 FALSE， 此 时 给 定 服从 某 分 布 的 随机 变 
量 X， 求 得 的 概率 是 P[X<x]， 如 果 要 求 P[X > x]， 要 么 用 1 一 P[X<x]， 要 么 就 令 lower.tail 的 值 
为 TRUE。 


经 过 简单 计算 易 知 叉 庚 = 28.1626663 、2 ez = 2.496047632 。 由 此 便 可 算得 F = 
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248.2238923。 当 然 ，R 中 给 出 的 线性 回归 分 析 结 果 也 包含 了 这 个 结果 。 因 为 F > Fo6s(1,22)， 
所 以 有 理由 拒绝 原 假 设 H,， 即 证 明 回 归 总 体 是 显著 线性 的 。 也 可 以 通过 与 这 个 F 统 计量 对 应 的 P 
值 来 判断 ， 此 时 可 以 在 R 中 使 用 下 面 的 代码 得 到 相应 的 P 值 。 


> pf(248.2238923, 1, 22, lower,.tail = FALSE) 
[EI On 


可 见 ，P 值 远 远 小 于 0.05， 因 此 我 们 有 足够 的 把 握 拒绝 原 假 设 。 

本 节 所 介绍 的 其 实 就 是 方差 分 析 ANOVA) 的 基本 步骤 。 在 本 书 的 后 续 章节 中 ， 我 们 还 将 
对 方差 分 析 做 专门 介绍 。 实际 上 ,一 元 线性 回归 模型 中 对 模型 进行 整体 性 检验 只 用 后 面 介绍 的 t 
检验 即 可 。 但 在 多 元 线性 回归 模型 中 ，F 检 验 是 检验 统计 假设 的 非常 有 用 和 有 效 的 方法 。 
10.4.3 ”单个 参数 的 检验 

前 面 我 们 介绍 了 利用 R? 来 估计 回归 直线 的 拟 合 优 度 , 但 是 R? 却 不 能 告诉 我 们 估计 的 回归 系 
数 在 统计 上 是 否 显 著 ， 即 是 否 显 著 地 不 为 零 。 实 际 上 确实 有 些 回归 系数 是 显著 的 ， 而 有 些 是 不 
显著 的 ， 下 面 就 来 介绍 具体 的 判断 方法 。 

本 章 前 面 曾经 给 出 了 序 和 房 的 概率 分 布 ， 即 : 


a Xx? 
pn(oo as] 


和 02 
Pi~N (eu) 
但 在 实际 分 析 时 ， 由 于 oa? 未知 ， 只 能 用 无 偏 估计 量 人 来 代替 ， 此 时 一 元 线性 回归 的 最 小 二 乘 估 
计量 所 和 所 的 标准 正 态 变量 服从 自由 度 为 n 一 2 的 t 分 布 ， 即 : 
bo — Bo 
上 三 一 一 一 一 一 tt 一 2 
se(po) 本 ) 
和 hb -所 
se(P) 
下 面 以 Bi 为 例 ， 演示 利用 t 统 计量 对 单个 参数 进行 检验 的 具体 步 又 。 首 先 对 回归 结果 提出 如 
下 假设 : 
bd Ho: Bi 一 0 
9 Hi:PB1 和 天 0 
即 在 原 假 设 条 件 下 , 解释 变量 对 因 变量 没有 影响 。 在 备 择 假设 条 件 下 , 解释 变量 对 因 变 量 有 (下 
的 或 者 负 的 ) 影响 ， 因 此 备 择 假设 是 双边 假设 。 
以 原 假设 Ho 构造 t 统 计量 并 由 样本 观察 值 计算 其 结果 ， 则 : 
wwaibbt.com DOOD00O000 








~t(n— 2) 


233 


一 一 


人 


t= 及 
se(Pp.) 





其 中 ， 


6 Der 

VEx2 m2 Ex 

可 以 通过 给 定 的 显著 性 水 平 4， 检 验 自由 度 为 n 一 2 的 t 分 布 表 ， 得 临界 值 ta(n 一 2)。 如 果 
It| > ta(n —2), 则 拒绝 H,， 此 时 接受 备 择 假设 犯错 的 概率 很 小 ， 即 说 明 记 所 对 应 的 变量 X 对 Y 有 
影响 。 相反， 车 |t|<ta(n 一 2), 则 无 法 拒绝 Ho, 即 Bj 与 零 的 差异 不 显著 ,说 明 pBi 所 对 应 的 变量 X 对 Y 
没有 影响 ， 变 量 之 间 的 线性 关系 不 显著 。 对 参数 的 显著 性 检验 ， 还 可 以 通过 P 值 来 判断 ， 如 果 
相应 的 P 值 很 小 ， 则 可 以 拒绝 原 假设 ， 即 参数 显著 不 为 零 。 

例如 ， 在 树龄 与 树 高 的 例子 中 ， 很 容易 算得 : 


旋 , 沁 ET70 


于 是 可 得 到 se( 房 ) = 0.3368/V70 = 0.04026， 进 而 有 t = 0.63429/0.04026 = 15.75484。 相 应 
的 P 值 可 以 在 R 中 用 下 列 代码 算得 。 
> 2*({1=-pt (5:75484,22)) 
[1] 1.820766e=13 

经 过 计算 所 得 之 t 值 为 15.75484， 其 P 值 几乎 为 0。 因 为 P 值 越 低 ， 拒 绝 原 假设 的 理由 就 越 充 
分 。 现 在 来 看 ， 我 们 已 经 有 足够 的 把 握 拒绝 原 假 设 ， 可 见 变 量 之 间 有 具有 显著 的 线性 关系 。 


se(P) = 


10.5 一 元 线性 回归 模型 预测 

预测 是 回归 分 析 的 一 个 重要 应 用 。 这 种 所 谓 的 预测 通常 包含 两 个 方面 ， 对 于 给 定 的 点 ， 一 
方面 要 估计 它 的 取 值 ， 另 一 方面 还 应 对 可 能 取 值 的 波动 范围 进行 预测 。 
10.5.1 点 预测 


对 于 给 定 的 X = Xo， 利 用 样本 回归 方程 可 以 求 出 相应 的 样本 拟 合 值 名， 以 此 作为 因 变 量 个 
别 值 i 或 其 均值 E(W) 的 估计 值 ， 这 就 是 所 谓 的 点 预测 。 比 如 在 树龄 与 树 高 的 例子 中 ， 如 果 你 购 
买 了 一 棵 树苗 ， 并 且 想 知道 该 树 的 树龄 达到 4 年 时 ， 其 树 高 预计 为 多 少 。 此 时 你 希望 求 得 的 值 ， 
其 实 是 树龄 为 4 的 该 种 树木 的 平均 树 高 或 者 是 期 望 树 高 。 

已 知 含 随机 扰动 项 的 总 体 回归 方程 为 : 


Y= EBE(Y)+ui= bot BiXit+ ui 
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当 X = Xo 时 ，Y 的 个 别 值 为 : 

yo = Bo+ BiXo+uo 
其 总 体 均值 为 : 

E(Yo) = Bo + BiXo 

样本 回归 方程 在 X = Xo 时 的 拟 合 值 为 : 
=f +hXo 
对 上 式 两 边 取 期 望 ， 得 : 
E(%) 二 E(Bbo 4 Bixo) = po+PBiXo = E(Yo) 

这 表示 在 X = Xo 时 , 由 样本 回归 方程 计算 的 负 是 个 别 值 克 和 总 体 均值 FE(m) 的 无 偏 估 计 , 所 以 名 可 
以 作为 和 E(Y) 的 预测 值 。 
10.5.2 区间 预测 


对 于 任 一 给 定 样 本 ， 估 计 值 多 只 能 作为 加 和 E(Y。) 的 无 偏 估计 量 ， 不 一 定 能 够 恰好 等 于 和 
E(Yo)。 也 就 是 说 ， 二 者 之 间 存 在 误差 ， 这 个 误差 就 是 预测 误差 。 由 这 个 误差 开始 ， 我 们 期 望 得 
到 %% 和 E(Y0) 的 可 能 取 值 的 范围 ， 这 就 是 区 间 预 测 。 


定义 误差 60 = = El) 由 于 负 服 从 正 态 分 布 ， 所 以 6 是 服从 正 态 分 布 的 随机 变量 。 而 且 
可 以 得 到 560 的 数学 期 望 与 方差 如 下 : 


E(60) = E[% —E(Y)|=0 
var(60) = E[% — ECY)] = ElBo + Bxo— (Bo+ PXo)] 
=E |(6, — Bo) + 2(Po — Bo)(B, — Bi)+ (PB — B1) x 
= var(B) + 2Xocov(Bo, Bi) + var(B, )x8 
其 中 ， 记 和 房 的 协 方差 为 : 
cov(jou 房 ) = E[(p — Bo)(B, — Bi)] 

= El[(Y -hi Bo) (Pb 了 Bi)] 
=E[(Bo + BX+i— Bx — Bo)(b — Bi)] 
=E{[-(B —B1)X + (Bb, — 6)} 
= XE(B, — Bp1) + E(up,) 
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2 
E(B 一) = var(b) = 577 
a : 
E(upi) = 3 (Du Dr) 
= :(5 za/ 4 E(uiY)+ :5 my 4 E(uiY¥;) 
by i#j 





























_ 2 也 和 
-x E(uiY)=0 
所 以 : 
和 Xo? 
cov(po, bi ) = = 
于 是 可 得 
2 有 Xx 2 XoX o2X¢ 
var(60) = 一 二 证 te 
? /Fx -nx 
= + 职 一 2Xo8+ 次 】 
w\2 
Ex x -= : -| 
由 66 的 数学 期 望 与 方差 可 知 : 
2 
su~N{o 6 ts | 
将 560 标准 化 ， 则 有 : 
0 ~N(0,1) 
+ Co —%)? 
Dxf 
由 于 c 未 知 ， 所 以 用 6 来 代替 ， 根 据 抽样 分 布 理 论 及 误差 6o 的 定义 ， 有 : 
和 和 =) 一 刘 





> |1, (Xo—X)? 
让 Fx 


那么 FE(2m) 的 预测 区 间 为 ， 
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o> 1 (Xo a (Xo— X)? 


其 中 a 为 显著 水 平 。 
在 R 中 可 以 使 用 下 面 的 代码 来 获得 总 体 均值 E(%) 的 预测 区 间 。 


> predict (plants.1lm; 
+ newdata = data.frame(age = 4), 
+ interval = "confidence") 
fit lwr PE 
1 6.59119 6.442614 6.739767 


在 此 基础 上 , 我 们 还 可 以 对 总 体 个 别 值 加 的 可 能 区 间 进 行 预测 。 设 误差 eo = 一 多 ,由 于 入 
服从 正 态 分 布 ， 所 以 eo 也 服从 正 态 分 布 。 而 且 可 以 得 到 eo 的 数学 期 望 与 方差 如 下 : 


E(eo) = E(%—%)=0 
var(eo) = var (% —%%) 
由 于 入 与 加 相互 独立 ， 并 且 : 
var(Ys) = var(Bo + BiXo + uo) = var(uo) 
var(%) = E[% — EC(Y0)] = var(6o) 








所 以 
Var(eo) = Var(yo) 十 var( 轴 ) =var(uo) + var(60) 
(Xo —X) (Xo — X)? 
=0o?2+o? E+ Ex | -。 +3 Fx | 


由 eo 的 数学 期 望 与 方差 可 知 : 
“no, o s+ + ee | 





将 eo 标准 化 ， 则 有 : 


由 于 a 未知， 所 以 用 6 来 代 蔡 ， 根 据 抽样 分 布 理论 及 误差 eo 的 定义 ， 有 : 
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六 一 六 
= 和 2 ~t(n—2) 
1  (X —X)? 
G11 中 DE 
那么 入 的 预测 区 间 为 : 
办 1 (Xo—X)? 了 革 (Xo=2X} 
和 -tad |1+ Fx SY Sh + ta 1+ 7 


在 R 中 可 以 使 用 下 面 的 代码 来 获得 总 体 个 别 值 和 ;的 预测 区 间 。 
> Predict (Plants ， lm, 
+ newdata = data. framelage = 4), 
+ interval = "prediction") 
£1t lwr upr 
Wee ty he a i ea ee 


可 见 在 执行 predict 函数 时 ， 通 过 选择 参数 “confidence” 或 “prediction” 即 可 实现 对 或 者 
区 期 望 及 其 置信 区 间或 称 置 信 带 ) 的 估计 。 而 且 芒 期 望 的 置信 区 间 要 比 力 的 置信 区 间 更 窗 。 
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第 11 音 
线性 回归 进 阶 


实际 应 用 中 , 一 个 自 变 量 同时 受 多 个 因 变 量 的 影响 的 情况 非常 普遍 。 因 此 考虑 将 第 10 章 中 
介绍 的 一 元 线性 回归 拓展 到 多 元 的 情形 。 包 括 多 个 解释 变量 的 回归 模型 , 就 称 为 多 元 回归 模型 。 
由 于 多 元 线性 回归 分 析 是 一 元 情况 的 简单 推广 ， 因 此 读者 应 该 注意 建立 二 者 之 间 的 联系 。 


11.1 多 元 线性 回归 模型 
假设 因 变量 Y 与 M 个 解释 变量 如,Xz,…,Xn 具 有 线性 相关 关系 ， 取 m 组 观察 值 ， 则 总 体 线性 
回归 模型 为 : 
Yi = Bo + PiXa t+ BaXiz t+ BmXim + Ui, i=1,2,.,n 
包含 M 个 解释 变量 的 总 体 回归 模型 也 可 以 表示 为 : 
E(Y|Xi1, Xiz,'**, Xim) = Bo + BiXii + BaXzi + + BnXim; C= 12," mn 


上 式 表示 在 给 定 Xi1,Xiz,… ,Xim 的 条 件 下 , Y 的 条 件 均 值 或 数学 期 望 。 这 里 Bo 是 截 距 , Bi, PB2,…, Bm 
是 偏 回 归 系 数 。 偏 回归 系数 又 称 为 偏 斜率 系数 。 例 如 ， 其 中 的 BP 度量 了 在 其 他 解释 变量 
X2,X3,… ,Xm 保持 不 变 的 情况 下 ，Xi 每 变化 1 个 单位 时 , Y 的 均值 E(Y|Xii,Xiz,… ,Xim) 的 变化 。 换 
句 话 说 ，PB1 给 出 了 其 他 解释 变量 保持 不 变 时 ，E(Y|Xii,Xiz,… ,Xim) 对 Xi 的 斜率 。 


不 难 发 现 ， 多 元 线性 回归 模型 是 以 多 个 解释 变量 的 固定 值 为 条 件 的 回归 分 析 。 


同一 元 线性 回归 模型 一 样 ， 多 元 线性 总 体 回 归 模 型 是 无 法 得 到 的 。 所 以 我 们 只 能 用 样本 观 
察 值 进行 估计 。 对 应 于 前 面 给 出 的 总 体 回归 模型 可 知 多 元 线性 样本 回归 模型 为 : 


让 = 房 十 房 Xia tboXiatthnXim i=12,%,n 
和 
Y= +BXat+bBXizt.…+hnXimte, i=12,.%,n 
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其 中 , 负 是 总 体 均值 ECY|Xay Xi2 …, Xim) 的 估计 ， 房 是 总 体 偏 回归 系数 记 的 估计 ,三 = 1,2,…,m， 
残 差 项 ei 是 对 随机 项 ui 的 估计 。 


对 多 元 线性 总 体 回 归 模 型 可 以 用 线性 方程 组 的 形式 表示 为 : 


=po+PBXit+PBaXiz t+ + BmXimt+ ul 
=pBot+PBiXz1 + BoX2z t+: + BmX2m + Uz 


Yn = Bot+BiXnit+ BaXnz t+ BmXnm+ un 


将 上 述 方程 组 改写 成 矩阵 的 形式 : 
1 Xi1 X12 Xim 1 
1 X21 X22 有 和 | 
pn un 


A 
Y= XB+u 


六 | _ 
上 式 就 是 用 和 矩阵 形式 表示 的 多 元 线性 总 体 回归 模型 。 其 中 Y 为 n 阶 因 变 量 观察 值 向 量 ，X 表 示 
n x m 阶 和 解 释 变 量 的 观察 值 算 了 泗 ，u 表 示 n 阶 随机 扰动 项 向 量 ，pB 表 示 m 阶 总 体 回归 参数 向 量 。 


同 理 可 以 得 到 多 元 线性 样本 回归 模型 的 矩阵 表示 为 : 


Y= Xf+e 











或 者 写成 如 下 形式 : 


或 者 
? = Xp 
其 中 了 表示 n 阶 因 变 量 回归 拟 合 值 向 量 ,B 表 示 m 阶 回归 参数 B 的 估计 值 向 量 ,e 表 示 n 阶 残 差 向 量 。 
以 上 各 向 量 的 完整 形式 如 下 : 


六 多 bo 61 
三 12| 了 = 吻 |， f= Bl, BE Ey 
7 bn en 




















显而易见 的 是 ， 由 于 解释 变量 数量 的 增多 ， 多 元 线性 回归 模型 的 计算 要 比 一 元 的 情况 复杂 
很 多 。 最 后 与 一 元 线性 回归 模型 一 样 ， 为 了 对 回归 模型 中 的 参数 进行 估计 ， 要 求 多 元 线性 回归 
模型 在 满足 线性 关系 之 外 还 必须 遵守 以 下 假定 。 

1. 零 均值 假定 

干扰 项 ui 均值 为 零 ， 或 对 每 一 个 i:， 都 有 E(wi|Xii, Xiz,… ,Xim) = 0。 


wwaibbt.com DODOODDOD 
240 


第 11 章 线性 回归 进 阶 


2. 同方 差 假 定 

干扰 项 wu 的 方差 保持 不 变 , 即 var(wi) = o?。 为 了 进行 假设 检验 , 我 们 通常 认为 随机 扰动 ( 噪 
声 ) 符合 一 个 均值 为 0、 方 差 为 o? 的 正 态 分 布 ， 即 wi~N(0,0?)。 

3. 相互 独立 性 

随机 扰动 项 彼此 之 间 都 是 相互 独立 的 ， 即 cov(wi,w) = 0， 其 中 i 亲族 

4. 无 多 重 共 线 性 假定 

解释 变量 之 间 不 存在 精确 的 线性 关系 ， 即 没有 一 个 解释 变量 可 以 被 写成 模型 中 其 余 解 释 变 
量 的 线性 组 合 。 


11.2 ”多 元 回归 模型 估计 

为 了 建立 完整 的 多 元 回归 模型 , 我 们 需要 使 用 最 小 二 乘法 对 模型 中 的 偏 回 归 系 数 进行 估计 ， 
在 这 个 过 程 中 所 用 到 的 许多 性 质 与 一 元 情况 下 一 致 。 
11.2.1 最 小 二 乘 估 计量 

已 知 多 元 线性 样本 回归 模型 为 : 

中 三 房 寺 房 卫士 房 X 十 二房 Xi 二 el， i=1,2,.,n 
于 是 离 差 平方 和 为 : 
D> = -0) = -Bhxa -BX 一 一 让 

现在 求 估 计 的 参数 fi, fi,… i,， 使 得 离 差 平 方 和 取得 最 小 值 ， 于 是 根据 微 积 分 中 极 值 存在 的 条 
件 ， 要 解 方程 组 : 


dy e? 有 
三 一 人 人 一 po 一 Aixa 一 一 <0 


0 ei A 
Sl = Bo—PBiXu—…— PbnXm)Xu =0 





902 ei 5 
= 2 -bo -PBX —— BnXim)Xim = 0 


其 解 就 是 参数 Bo, Bi,… pr oe “bn 
将 以 上 方程 组 改写 成 : 
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mp 十 YBaxa + 2 bax te Dp, Brin 二 Yi 
YBoxa 十 方 遍 玖 十 2 记 XaXp 中 力 ? 直 >》 XpXan = > Xa 
DBoXim+ > BXomXu + > BaXimXiz + t+ > BnXB, = 》 XimY, 
这 个 方程 组 称 为 正规 方程 组 。 为 了 把 正规 方程 组 改写 成 矩阵 形式 ， 记 系数 矩阵 为 4， 常 数 项 向 
量 为 B，pB 的 估计 值 向 量 为 B， 即 : 


n Dx 2 Xe Ss Xi 
A= pi 之 交 Da “人 方 XXin 


> Ze De i 用 




















1 1 Xs Xz … Am 
> i x 攻 - Xa X22 , Xam 二 XIX 
机 Xam 1 Xn Kn2 :Xnm 
1 a 
B= 2 中 村 中 汪 Xni » XiY 
Xim Xzam Ann ly 
i ， 了 = (Yi 为,…,)"。 所 以 正规 方程 组 可 以 表示 为 : 


AB =B 或 (XTX)PB = XT'Y 
当 系 数 矩 阵 可 逆 时 ， 正 规 方程 组 的 解 为 : 
B= 4-1B = (XTX)-LXTY 
进而 还 可 以 得 到 : 
?=XP = (XX 
令 H = X(XTX)-1XT7， 则 有 ?了 = HY，H 是 一 个 n 阶 对 称 矩 了 泗 ， 通 常 称 为 帽子 矩阵 。 该 矩阵 的 对 角 
线 元 素 记 为 hii, 它 给 出 了 第 i 个 观测 值 离 其 余 n 一 1 个 观测 值 的 距离 有 多 远 , 我 们 通常 称 其 为 杠杆 率 。 


11.2.2 ”多 元 回归 的 实例 
现在 将 通过 一 个 实例 来 演示 在 R 中 建立 多 元 线性 回归 模型 的 方法 。 根 据 经 验 知道 ， 沉 淀 物 
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吸收 能 力 是 土壤 的 一 项 重要 特征 ， 因 为 它 会 影响 杀 虫 剂 和 其 他 各 种 农药 的 有 效 性 。 在 一 项 实验 
中 ， 我 们 测定 了 若干 组 土壤 样本 的 如 下 一 些 情况 ， 数 据 如 表 11-1 所 示 。 其 中 ，y 表 示 磷 酸 盐 吸 
收 指标 ; xx 和 xz 分 别 表示 可 提取 的 铁 含量 与 可 提取 的 铝 含 量 。 请 根据 这 些 数据 建立 y 关 于 za 和 xz 
的 多 元 线性 回归 方程 。 


表 11-1 土壤 沉淀 物 吸 收 能 力 采样 数据 


本 
salalasloels sa|ls in| | 
| so 1s|w|w|x | |»|s0 | | 3 | 6 | 6 

我 们 在 进行 一 元 线性 回归 分 析 之 前 往往 会 使 用 散 点 图 来 考察 一 下 解释 变量 与 被 解释 变量 之 
间 的 线性 关系 。 在 进行 多 元 线性 回归 分 析 时 ， 我 们 也 可 以 采用 类 似 的 图 形 来 观察 模型 中 解释 变 


量 与 被 解释 变量 间 的 关系 ， 但 这 时 所 采用 的 统计 图 形 要 更 复杂 一 些 ， 它 被 称 为 是 散 点 图 阵列 ， 
如 图 11-1 所 示 。 








106 150 200 250 300 


40 50 60 


Phosphate 
Absorption Index 





10 20 30 


Amount of 
Extractable iron 


Amount of 
Extractable Aluminium 


40 60 80 100 


20 





20 4 60 8 10 


11-1 散 点 图 阵列 
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下 面 给 出 绘制 上 述 散 点 图 阵列 的 R 语言 代码 。 从 散 点 图 中 可 以 看 出 每 个 解释 变量 都 与 被 解 
释 变 量 存在 一 定 的 线性 关系 ， 而 且 这 也 是 我 们 所 希望 看 到 的 。 更 重要 的 是 ， 两 个 解释 变量 之 间 
线性 关系 并 不 显著 ， 这 就 意味 着 多 重 共 线性 出 现 的 可 能 较 低 。 在 构建 多 元 线性 回归 模型 时 ， 随 
着 解释 变量 数目 的 增多 ， 其 中 某 两 个 解释 变量 之 间 产 生 多 重 共 线 性 是 很 容易 发 生 的 情况 。 此 时 
就 需要 考虑 是 否 将 其 中 某 个 变量 从 模型 中 剔除 出 去 ， 甚 至 是 重新 考虑 模型 的 构建 。 关 于 多 重 共 
线性 的 问题 ， 本 书 无 意 过 深 涉及 。 事 实 上 ， 现 在 用 以 检验 多 重 共 线 性 的 方法 也 有 很 多 ， 有 兴趣 
的 读者 可 以 参阅 其 他 相关 著作 ， 此 处 不 再 袭 述 。 另 外 ， 本 章 的 最 后 还 会 向 读者 展示 ， 现 代 回 归 
分 析 是 如 何 化 解 多 重 共 线性 之 影响 的 。 
pai= Cc(4, 1t8，14，18，25w 26r 21, SO, 2 36, OS, Gor 40) 
dron = elo 175， 1], 124, 130% T1369, 169, To@, 244, 25901, "333, "199) 
aluminiam = el(13 21, 24, 23, 64, 38, 33, 61, 39, 11, 112, 88, 54) 
pairs(~paitiron+aluminiuvm, labels = ¢c("Phosphate \nAbsorption Index", 


"Amount ‘of \nExtractable lron","Amount of \ngxtractable Aluminium'), 
main ="Scatterplot Matrices") 


多 元 线性 回归 分 析 同 样 使 用 Im() 函 数 来 完成 ， 但 与 一 元 线性 回归 不 同 的 地 方 在 于 函数 中 用 
以 表示 线性 关系 的 参数 表达 式 里 各 个 自 变 量 之 间 要 用 “+” 来 进行 连接 。 来 看 下 面 这 段 示 例 代 
人 码 。 


> sojil.lm <~ lm(pai ~ iron + aluminium) 
> summary (soil.1m) 



































= 

















CallL: 
1m(formila,= pal > iron + .aluminium) 


Residuals: 
Min 10 Median 30 Max ， 
-8.9352 ~2,.2182 0.4613 3-.3448 6 DOS 


Coefficients: 

Estimate Std, hrror t walue Pr(l>\tl) 
(Intercept) -7.35066 3.48467 -2.109'0,.061101 ， 
iron 0.11273 0.02969.. 3.1797 O0035004 *” 
aluminium 0.34900 0.07131 4.894 0.000628 *** 


Sigaif. Codes, 0 “rh 0 .001 ‘wir O01 a1 0.05 \.r 0.L 1 1 


Residual standard error: 4.379 on 10 degrees of freedom 
Multiple R-squared: 0.9485, Adjusted R-squared: 0.9382 
F-statistic: 92.03 on 2 and 10 DF, p-value! 3.634e-07 


易 见 回归 模型 的 拟 合 优 度 R? = 0.9485， 调 整 判 定 系数 Raaj = 0.9382， 说 明 模 型 的 拟 合 效 果 
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较 好 。 这 两 个 指标 的 意义 我 们 在 一 元 的 情况 下 已 经 进行 过 详细 的 介绍 ， 本 章 将 不 再 袭 言 。 需 要 
说 明 的 是 ， 实 际 上 在 多 元 回归 的 情况 下 ， 随 着 自 变 量 个 数 的 增多 ， 拟 合 优 度 也 会 提高 ， 所 以 仅 
仅 看 这 一 个 指标 说 服 力 是 有 限 的。 具体 这 些 判 定 指标 的 意义 ， 我 们 后 面 还 会 做 进一步 的 解读 。 
根据 上 面 的 结果 ， 可 以 写 多 元 线性 回归 方程 如 下 : 


= —7.35066 + 0.11273x1 + 0.349x; 
除了 summary() 函 数 输出 的 一 些 标准 信息 以 外 ， 我 们 还 可 以 通过 R 中 的 一 些 函数 来 获得 更 多 线 
性 拟 合 模型 的 信息 。 本 章 后 面 将 有 更 进一步 的 介绍 。 
11.2.3 ”总体 参数 估计 量 


由 B 的 估计 量 b 的 表达 式 可 见 ，p 的 每 一 个 分 量 都 是 相互 独立 且 服 从 正 态 分 布 的 随机 变量 
六 , 咏 ,…, 生 的 线性 组 合 ， 从 而 可 知 随机 变量 6 服从 m + 1 维 正 态 分 布 。 为 了 求 出 让 的 分 布 ， 首 先 
来 计算 的 期 望 和 方差 (或 方差 阵 )。 


向 量 房 的 数学 期 望 定义 为 ; 
E(B) 二 [E(Bo), E(B),, E(B )] 
而 且 对 任意 n x (m + 1) 阶 矩阵 4， 容 易 证 明 : 
E(A4B) = AE(P) 
于 是 可 得 : 
E(B) = E[(XTX)-1XTY] = (XTX)-1XTEY 
= (XTX)-1XTE(XB + u) = (XTX)-1XTXB = Bp 
所 以 B 是 B 的 无 偏 估计 ， 即 Bo, 启 ,… ,依次 是 Bo, B1,…, Bm 的 无 偏 估 计 ， 为 了 计算 的 方差 阵 ， 
我 们 先 把 方差 阵 写成 矢量 乘积 的 形式 : 
D(Bo) cov(fo,Bi) … cov(fo,bn) 
p(B)=|covBubo) DB) ~ cov(B, bn) 
cov(Brn bo) cov(Bms Bs)  D(B,) 
=E{[(Bo ~ E[Bo]), (B, — E[B,]),-, (Bm — ELBm])] 
x [(Bo — E[Bo]), (B; — E[B,]),*, (Bn — ElBm])]} 
=E{[B— E(B)][B — E(B)] } 
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而 且 ": 
5{[B ~- E(B)]B - E(B)] } 
= E{[(XTX) 1X™(Y — EY)][(XTX)- 1X" (Y — EY)]"} 
= E[(XTX)- -1XT™(Y — EY)(Y — EY)TX(XTX)-1] 
= (XTX)-1XTE[(Y — EY)(Y — EY)T]X(XTX)-! 
= (XTX)-1XTE(uuT)X(XTX)-! 
= RoR = (RY) 
根据 已 经 得 到 的 计算 结果 , 易 知 的 方差 阵 等 于 ag24-1, 这 个 方差 阵 给 出 了 B 中 每 个 元 素 ( 即 


bo, Bi,…,B,) 的 方差 (或 标准 差 )， 以 及 元 素 之 间 的 协 方差 。 当 i = /时 ， 和 矩阵 对 角 线 上 的 元 素 
就 是 相应 房 的 方差 var( 房 ) = o24 寺 ， 由 此 也 可 知道 房 的 标准 差 为 


se( 记 ) = ja 
渔夫 j 时 ， 和 矩阵 对 角 线 以 外 的 元 素 就 表示 相应 与 记 的 协 方差 ， 即 cov(b, 记 ) = a24 计 。 


例如 ， 在 土壤 沉淀 物 吸收 情况 的 例子 中 可 以 求 得 矩阵 4 如 下 : 


10 2305 641 
4=XIX=|2305 467669 133162 


641 133162 41831 





相应 的 逆 和 矩阵 4-! 如 下 : 


一 0.003826 0.000046 一 0.000088 
0.002477 一 0.000088 0.000265 


而 且 我 们 从 系统 的 输出 中 也 知道 残 差 标 准 误差 为 4379， 于 是 有 : 
se( 记 ) = 4.379 x V0.633138 ~ 3.48437 
se(fi) = 4.379 x V0.000046 ~ 0.02969 
se(b,) = 4.379 x V0.000265 ~ 0.07130 


在 考虑 到 计算 过 程 中 保留 精度 存在 差异 的 条 件 下 ， 上 述 参 数 的 标准 误差 与 11.2.2 节 中 系统 的 输 
出 结果 是 基本 一 致 的 。 


Ee —0.003826 5855 
A 


@ 计算 过 程 中 用 到 的 一 些 矩阵 计算 性 质 如 下 。 其 中 4、B 是 两 个 可 以 做 乘积 的 抢 阵 ，1 是 单位 矩阵 ， 则 有 
(4B)7 = BT4T，44-1 = 4T(04DT= (4-147 =1=(4")! = (4-07。 
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注意 R 中 的 残 差 标准 误差 (Residual Standard Error) 其 实 就 是 残 差 的 标准 差 (Residual 
Standard Deviation)， 如 果 读 者 对 于 它 的 计算 仍然 感到 困惑 ， 那 么 可 以 参看 第 10 章 中 的 相关 结 
论 。 总 的 来 说 ， 在 多 元 线性 回归 中 ， 总 体 方差 (同时 也 是 误差 项 的 方差 ) o? 的 无 偏 估计 量 为 : 


nk 7 一 大 


所 以 残 差 〈 或 误差 项 ) 的 标准 差 为 ; 
2 


Ss=0= | 一 一 一 一 一 


九 一 大 


其 中 k 是 被 估计 之 参数 的 数量 。 


11.3 ”多 元 回归 模型 检验 


借 由 最 小 二 乘法 所 构建 的 线性 回归 模型 是 否 给 出 了 观察 值 的 一 种 有 效 描述 ? 或 者 说 ， 我 们 
所 构建 的 模型 是 否 具有 一 定 的 解释 力 ? 要 回答 这 些 问题 ， 就 需要 对 模型 进行 一 定 的 检验 。 
11.3.1 线性 回归 的 显著 性 

与 一 元 线性 回归 类 似 ， 要 检测 随机 变量 Y 和 可 控 变 量 X1,X2,… ,Xm 之 间 是 否 存 在 有 线性 相关 
关系 ， 即 检验 关系 式 7 二 Bo 十 BiX1 十 人 十 BnXm 证 u 是 否 成 立 ， 其 中 u~N(0, a ja 此 时 主要 检验 
m 个 系数 Bi, Bs,…,PBmn 是 否 全 为 零 。 如 果 全 为 零 ， 则 可 认为 线性 回归 不 显著 ; 反之 ， 若 系数 
Bi,B2,…,Bn 不 全 为 零 ， 则 可 认为 线性 回归 是 显著 的 。 为 进行 线性 回归 的 显著 性 检验 ， 在 上 述 模 
型 中 提出 原 假设 和 备 择 假设 。 

® Ho: B=Bs=™=pn=0 

。 Hi: Ho 是 错误 的 
设 对 (Xi1,X2,… ,Xm 了 ) 已 经 进行 了 n 次 独立 观测 , 得 观测 值 (Xii,Xiz,… ,Xim, 站); 其 中 i = 1,2,…,n。 
由 观测 值 确定 的 线性 回归 方程 为 : 


? 
将 (Xi,X2,… ,Xm) 的 观测 值 带 入 ， 有 : 


令 


= 冰 
nz 
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PT 





我 们 采用 FF 检验 法 。 首 先 对 总 离 差 平 方 和 进行 分 解 : 


SSoal = > -= >》 人 -人 + 人 -中 
与 前 面 在 一 元 线性 回归 时 讨论 的 一 样 ， 残 差 平 方 和 : 
SSresidual = 6 = Rn) 
反映 了 实验 时 随机 误差 的 影响 。 
回归 平方 和 为 : 
gm = 光一 到 
反映 了 线性 回归 引起 的 误差 。 
在 原 假设 成 立 的 条 件 下 ， 可 得 : 
=pB+u i=12,.,n 
了 = po 十 五 
观察 SSregression 和 SSresidual 的 表达 式 ， 易 见 如 果 SSregression 比 SSresiaual 大 得 多 ， 就 不 能 认为 


所 有 的 Bi, Bs,… ,Bn 全 为 零 ， 即 拒绝 原 假设 ,反之 则 接受 原 假设 。 从 而 考虑 由 这 两 项 之 比 构造 的 
检验 统计 量 。 

由 F 分 布 的 定义 可 知 : 

SSregression/™m 
SSresidual/ (Nn 一 1) 

给 定 显 著 水 平 n， 由 FF 分布 表 查 得 临界 值 久 (m,n 一 m 一 1)， 使 得 : 

P{F>FE(mn—m—1)}=a 

由 抽样 得 到 的 观测 数据 ， 求 得 F 统 计量 的 数值 ， 如 果 F>2 所 (m,n 一 m 一 1)， 则 拒绝 原 假设 ， 即 线 
性 回归 是 显著 的 。 否则 ， 如 果 F < 及 (mm 一 m 一 1)， 则 接受 原 假 设 ， 即 认为 线性 回归 方程 不 显 
著 。 

在 土壤 沉淀 物 吸 收 情 况 的 例子 中 ， 可 以 算得 F 统 计量 的 大 小 为 92.03， 这 个 值 要 远 远 大 于 
Foos(2,10)， 所 以 有 理由 拒绝 原 假设 ， 即 证 明 回归 总 体 是 显著 线性 的 。 也 可 以 通过 与 这 个 F 统 计 
量 对 应 的 P 值 来 判断 ， 此 时 可 以 在 R 中 使 用 Dt ei 


> pf (92.03, 2, 10, lower. pod iA) ， 
[1] 3.633456e-07 ~ 


可 见 ，P 值 远 远 小 于 0.05， 因此 我 们 有 足够 的 把 握 拒绝 原 假设 ， 并 同样 得 到 回归 总 体 具 有 显著 线 


一 ~F(m,n—m-— 1) 
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性 的 结论 。 


11.3.2 ”回归 系数 的 显著 性 
在 多 元 线性 回归 中 ， 若 线性 回归 显著 ， 回 归 系 数 不 全 为 零 ， 则 回归 方程 
PF=bo+PBxit+ pbx t+ + Bnxm 
是 有 意义 的 。 但 线性 回归 显著 并 不 能 保证 每 一 个 回归 系数 都 足够 大 ， 或 者 说 不 能 保证 每 一 个 回 
归 系 数 都 显著 地 不 等 于 零 。 若 菜 一 系数 等 于 零 ， 如 pB; = 0， 则 变量 xy 对 Y 的 取 值 就 不 起 作用 。 因 
此 ， 要 考察 每 一 个 自 变 量 y 对 Y 的 取 值 是 否 起 作用 ， 其 中 j = 1,2,…m， 就 需要 对 每 一 个 回归 系 
数 B; 进 行 检验 。 为 此 在 线性 回归 模型 上 提出 原 假设 : 


Ho:Bj=0, 1<j<sm 
由 于 房 是 5 的 无 偏 估计 量 ， 自 然 由 房 构造 检验 用 的 统计 量 。 由 : 
P= XR 
易 知 有 i 是 相互 独立 的 正 态 随 机 变量 7, 钱 ,… ,六 ,的 线性 组 合 ， 所 以 记 也 服从 正 态 分 布 ， 并 且 有 : 
E(Bb)=B, var(bj)= oA 
即 Bj~N(Bj,o?4jj)， 其 中 4 站 是 矩阵 4-! 的 主 对 角 线 上 的 第 j 个 元 素 ， 而 且 这 里 的 j 是 从 第 0 个 算 
起 的 。 于 是 


BB No0,) 
o 4 六 
而 
SSresi ua 
a 
还 可 以 证 明 房 与 SSresiaua 是 相互 独立 的 。 因 此 在 原 假设 成 立 的 条 件 下 ， 有 ; 
bi 


T= ~tn—mo—1) 


|Ajj SSresidual/ Cn mo— 1) 


给 定 显著 水 平 a， 查 t 分 布 表 得 到 临界 值 twjs(n -mm 1)， 由 样本 值 算得 7 统计 量 的 数值 ， 若 
IFl>tejza 一 m 一 1) 则 拒绝 原 假设 , 即 认为 B; 和 零 有 显著 的 差异 ; 相反 , 若 |T| < tajz(n 一 m 一 二 
则 接受 原 假设 ， 即 认为 Bj 显著 地 等 于 零 。 


由 Bsa os] =n 一 m 一 1， 所 以 
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A*#2 _ SSresidual 


nn—m—1 
是 o? 的 无 偏 估计 。 于 是 T 统 计量 的 表达 式 也 可 以 简写 为 : 
T= bj = 亡 ~t(n—m— 1) 








在 土壤 沉淀 物 吸 收 情 况 的 例子 中 ，R 计算 得 到 的 各 参数 估计 值 为 : 
bo=—7.35066, f=0.11273, fp,= 0.34900 


于 是 同 3 个 参数 相对 应 的 T 统 计量 分 别 为 : 
7 2 -7.35066 
fo 4.379 x V0.633138 
从 二 0.11273 2 ete 
户 “4.379 x V0.000046 
0.34900 


Ts = 一 -一 
户 “4.379 xV0.000265 

相应 的 P 值 可 以 在 R 中 用 下 列 代 码 算得 : 

> 2*(1-pt (2.109,10)) 

[i] 0.06114493 

> 2 (pe (BAL0)) 

Fh O00 ODO 

> 2*(1-pt(4.894,10)) 

[1] 0.0006287067 


这 与 R 自动 给 出 的 结果 是 一 致 的 。 而 且 我 们 可 以 据 此 推断 回归 系数 B11 和 Bs 是 显著 (不 为 零 ) 的 。 
注意 截 距 项 Bo 是 否 为 零 并 不 是 我 们 需要 关心 的 。 


= —2.109 


= 4.894 


11.4 ”多 元 线性 回归 模型 预测 


对 于 线性 回归 模型 : 
Y=pBot+PBXit+BXs t+ + BnXm+u 
其 中 wx~N(0,a2)， 当 求 得 参数 8 的 最 小 二 乘 估计 有 之后， 就 可 以 建立 回归 方程 : 
?了 =p +PBX + bX + + Bn Xm 


而 且 在 经 过 线性 回归 显著 性 及 回归 系数 显著 性 的 检验 后 , 表明 回归 方程 和 回归 系数 都 是 显著 的 ， 
那么 就 可 以 利用 回归 方程 来 进行 预测 。 给 定 自 变量 Xi,X2,…,Xm 的 任意 一 组 观察 值 
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Xol， X02, Wap 0 » 由 回 归 方 程 可 得 : 
= +t+BXort pbaXos t+ + BrnXom 
设 Xo = (1, X01 X02,…,Xom)， 则 上 式 可 以 写成 : 
和 %=X0op 

正如 第 10 章 中 所 讨论 的 那样 ， 在 X = Xo 时 ， 由 样本 回归 方程 计算 的 名 是 个 别 值 力 和 总 体 均 
值 F(2) 的 无 偏 估 计 ， 所 以 负 可 以 作为 矶 和 有 (她 ) 的 预测 值 。 

与 第 10 章 中 讨论 的 情况 相同 , 区 间 预 测 包括 两 个 方面 , 一 方面 是 总 体 个 别 值 为 的 区 间 预 测 ， 
男 一 方面 是 总 体 均值 E(%) 的 区 间 预 测 。 设 eo 一 yo 入 3 yo ps 则 有 : 

eo~N(0,a2z[1 十 XoCKTX)-1XT]) 

如 果 太 是 统计 模型 中 某 个 参数 8 的 估计 值 ， 那 么 7 统计 量 的 定义 式 就 为 : 

se( 有 ) 





ts = 


所 以 与 eo 相对 应 的 T 统 计量 的 表达 式 如 下 : 
SS 
6V1+Xo(CXTX)-IXIE V1+XoCXTX)-1XT 


在 给 定 显著 水 平 w< 的 情况 下 ， 可 得 : 


负 一 te(m 一 站 一 1) xx 人 1 + XoXTX)-1XI SY SN +tan—m—1)xd h + Xo(XTX)-1XS 
2 2 


总 体 个 别 值 辑 的 区 间 预 测 就 由 上 式 给 出 。 
针对 土壤 沉淀 物 吸收 的 例子 ,可 以 在 R 中 使 用 下 面 的 命令 来 预测 当 可 提取 的 铁 含 量 为 150， 
可 提取 的 铝 含量 为 40 时 ， 磷 酸 盐 的 吸收 情况 。 


> predict (soil.lm, newdata = data,frame (iron=150, aluminium=40), 
+ interval = "prediction") 

下 主攻 lwr upr 
I SIT Sd 3 i045 


其 中 点 预测 的 结果 是 23.51929， 在 5% 的 显著 水 平 下 ， 个 别 值 的 区 间 预 测 结 果 是 
(13.33372, 33.70486)。 

当然 我 们 也 可 以 根据 公式 来 手动 计算 这 个 结果 ， 其 中 的 T 统 计量 临界 值 可 以 由 下 面 的 代码 
求 得 。 
> gqt(0.025, 10, lower.tail = FALSE) 
CE 2 28L39 


t(n—m-— 1) 
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peo 


为 了 得 到 更 精确 的 误差 标准 差 , 我 们 使 用 下 面 的 代码 进行 计算 。R 中 自动 输出 的 结果 4.379 是 我 
们 所 计算 之 结果 在 保留 4 位 有 效 数 字 后 得 到 的 。 


> soil,.lm$residuals 


1 2 3 4 "3 
-0.06305233 -1.70660766 0.46129830 3.34477065 -3.64063944 
6 7 8 9 10 
0.58585297 -2.21821382 -2.99022240 3,70238062 -8.93519447 

11 12 13 


4.29026500 1.008S 7044 ©607079214 
> 0 
[1 4.3719375 


男 外 还 可 以 算得 Xo(XTX)-1XL 的 值 为 : 








1 本 0.633138 一 0.003826 0.002477 
150| x|—0.003826 0.000046 一 0.000088 = 0.08958766 
40 0.002477 一 0.000088 0.000265 


然后 在 R 中 使 用 下 面 的 代码 计算 最 终 的 预测 区 间 ， 可 见 结果 与 前 面 给 出 的 结果 是 基本 一 致 的 。 


> 23.51929 ~ 0.220139 * Sqrt + OBSS67266 45379371 
[4 13.333712 
> 23,.5L929 + 2.229139 + 0 08958766) * 4.3793715 
11] 32.70486 


类 似 地 ， 我 们 还 可 以 得 到 总 体 均 值 8(%) 的 区 间 预 测 表 达 式 为 : 


-tan—-m—1)xé [xoCx TX) -1XT<E C0)<n +ta(n—m—1)xd [XoCXTX) -XT 
2 


并 由 下 面 的 R 代码 来 执行 点 预测 和 区 间 预 测 。 而 且 加 期 望 的 置信 区 间 要 比 % 的 置信 区 间 更 窜 。 


> predict (soil.1m, newdata = data,.frame (iron=150, aluminium=40), 
+ interval = "confidence") 








中 wr UpY 
外 23.51929 20 ,59686565 26.43998 


同样 ， 下 面 的 代码 给 出 了 包含 中 间 过 程 的 手动 计算 方法 ， 这 与 刚刚 得 到 的 计算 结果 是 一 致 
的 。 
> 23.51929 - 2.228139 * sgrt(0.08958766) * 4.379375 
[1] 20.59865 


> 23.51929 4 2.228139 * sgqrt {0.08958766) * 4.379395 
[Lil 2060.40993 
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11.5 “其 他 回归 模型 函数 形式 


如 果 你 觉得 线性 回归 的 函数 模型 仅 限于 之 前 所 讨论 的 形式 ， 那 你 就 大 错 特 错 了 。 很 多 看 似 
非 线 性 的 关系 经 由 一 定 的 转换 也 可 以 变 成 线性 的 。 此 外 ， 在 前 面 我 们 讨论 的 线性 回归 模型 中 ， 
被 解释 变量 是 解释 变量 的 线性 函数 ， 同 时 被 解释 变量 也 是 参数 的 线性 函数 ， 或 者 说 我 们 所 讨论 
的 模型 既是 变量 线性 模型 也 是 参数 线性 模型 .但 很 多 时 候 , 这 两 种 线性 关系 是 很 难 同时 满足 的 。 
下 面 我 们 要 讨论 的 就 是 参数 可 以 满足 线性 模型 ， 但 变量 不 是 线性 模型 的 一 些 情况 。 


11.5.1 双 对 数 模型 以 及 生产 函数 

通过 适当 的 变量 蔡 换 把 非 线性 关系 转换 为 线性 是 一 种 非常 有 用 的 技术 。 在 很 多 时 候 ， 借 由 
这 种 变换 ， 我 们 可 以 在 线性 回归 的 模型 框架 里 来 考虑 许多 看 似 形 式 复 杂 的 经 典 模型 。 作 为 对 数 - 
对 数 模型 〈 或 称 为 双 对 数 模型 ) 的 一 个 典型 例子 ， 下 面 就 让 我 们 共同 来 研究 一 下 生产 理论 中 著 
名 的 柯 布 -道格拉斯 生产 函数 (Cobb-Douglas Production Function ) 。 


生产 函数 是 指 在 一 定时 期 内 ， 在 技术 水 平 不 变 的 情况 下 ， 生 产 中 所 使 用 的 各 种 生产 要 素 的 
数量 与 所 能 生产 的 最 大 产量 之 间 的 关系 。 换 句 话说 ， 生 产 函 数 反 映 了 一 定 技术 条 件 下 投入 与 产 
出 之 间 的 关系 。 柯 布 -道格拉斯 生产 函数 最 初 是 美国 数学 家 查尔斯 抹布 (Charles Wiggins Cobb ) 
和 经 济 学 家 保罗 。 道 格拉 斯 (Paul Howard Douglas) 在 探讨 投入 和 产 出 的 关系 时 共同 创造 的 。 
它 的 随机 形式 可 以 表达 为 : 


























于 一 亢 交 2 交 6 和 


其 中 Y 是 工业 总 产值 ，Xs 是 投入 的 劳动 力 数 (单位 是 万 人 或 人 )，Xs 是 投入 的 资本 ， 一 般 指 固定 
资产 净值 (单位 是 亿 元 或 万 元 )。B1 是 综合 技术 水 平 ，Bs 是 劳动 力 产 出 的 弹性 系数 ，Ps 是 资本 产 
出 的 弹性 系数 ，v 表 示 随 机 干扰 项 。 


在 柯 布 与 道格拉斯 二 人 于 1928 年 发 表 的 著作 中 , 他 们 详细 地 研究 了 1899 年 至 1922 年 美国 
制造 业 的 生产 函数 。 他 们 指出 ， 制 造 业 的 投资 分 为 ， 以 机 器 和 建筑 物 为 主要 形式 的 固定 资本 投 
资 和 以 原料 、 半 成 品 和 仓库 里 的 成 品 为 主要 形式 的 流动 资本 投资 ， 同 时 还 包括 对 土地 的 投资 。 
在 他 们 看 来 ， 在 商品 生产 中 起 作用 的 资本 ， 是 不 包括 流动 资本 的 。 这 是 因为 ， 他 们 认为 ， 流 动 
资本 属于 制造 过 程 的 结果 ， 而 非 原 因 。 同 时 ， 他 们 还 排除 了 对 土地 的 投资 。 这 是 因为 ， 他 们 认 
为 ， 这 部 分 投资 受 土 地 价值 的 异常 增值 的 影响 较 大 。 因 此 ， 在 他 们 的 生产 函数 中 ， 资 本 这 一 要 
素 只 包括 对 机 器 、 工 具 、 设 备 和 工厂 建筑 的 投资 。 而 对 劳动 这 一 要 素 的 度量 ， 他 们 选用 的 是 制 
造 业 的 雇佣 工人 数 。 

但 不 幸 的 是 ， 由 于 当时 对 这 些 生产 要 素 的 统计 工作 既 不 是 每 年 连续 的 ， 也 不 是 恰好 按 他 们 
的 分 析 需 要 来 分 类 统计 的 ， 所 以 他 们 不 得 不 尽 可 能 地 利用 可 以 获得 的 一 些 其 他 数据 ， 来 估计 出 
他 们 打算 使 用 的 数据 的 数值 。 比 如 ， 用 生铁 、 钢 、 钢 材 、 木 材 、 焦 炭 、 水 泥 、 砖 和 铜 等 用 于 生 
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产 机 器 和 建筑 物 的 原料 的 数量 变化 来 估计 机 器 和 建筑 物 的 数量 的 变化 ， 用 美国 一 两 个 州 的 雇佣 
工人 数 的 变化 来 代表 整个 美国 的 雇佣 工人 数 的 变化 等 。 


经 过 一 番 处 理 ， 基 于 1899 年 至 1922 年 间 的 数据 ， 柯 布 与 道格拉斯 得 到 了 前 面 所 示 之 形式 
的 生成 函数 。 这 一 成 果 对 后 来 的 经 济 研究 产生 了 十 分 重要 的 影响 ， 而 更 令 人 敬佩 的 是 ， 所 有 这 
些 工 作 都 是 在 没有 计算 机 的 年 代 里 完成 的 。 从 二 人 所 给 出 的 模型 中 可 以 看 出 ， 决 定 工业 系统 发 
展 水 平 的 主要 因素 是 投入 的 劳动 力 数 、 固 定 资产 和 综合 技术 水 平 〈 包 括 经 营 管理 水 平 、 劳 动力 
素质 和 引进 先进 技术 等 )。 


尽管 柯 布 -道格拉斯 生产 函数 给 出 的 产 出 与 两 种 投入 之 间 的 关系 并 不 是 线性 的 , 但 通过 简单 

的 对 数 变 换 即 可 以 得 到 : 
ln Y: 一 In Bi + ln Xz; + Bs In Xs:i 十 Ui 
= fo + Bzln Xzi+ Baln Xsit+ ui 

其 中 Bo = In B11。 此 时 模型 对 参数 B,。、Bs 和 Bs 是 线性 的 ， 所 以 模型 也 就 是 一 个 线性 回归 模型 ， 而 
且 是 一 个 对 数 -对 数 线 性 模型 。 

参考 文献 [8] 中 给 出 了 2005 年 美国 50 个 州 和 哥伦比亚 特区 的 制造 业 部 门 数 据 ， 包 括 制造 业 
部 门 的 价值 加 成 ( 即 总 产 出 ， 单 位 : 千 美 元 )、 劳 动 投入 (单位: 千 小 时 ) 和 资本 投入 (单位 ;: 
千 美 元 )。 限 于 篇 幅 ， 此 处 我 们 不 详细 列 出 具体 数据 ， 有 需要 的 读者 可 以 从 本 书 的 在 线 支 持 网 站 
上 下 载 得 到 完整 数据 。 假 定 上 面 给 出 的 模型 满足 经 典 线性 回归 模型 的 假定 ， 在 R 中 使 用 最 小 二 
乘法 对 参数 进行 估计 ， 最 终 可 以 得 到 如 下 所 示 的 回归 方程 ; 


In$ = 3.8876 + 0.4683 In Xi + 0.5213 ln Xa; 
(0.3962) (0.0989) (0.0969) 
t = (9.8115) (4.7342) (5.3803) 


从 上 述 回归 方程 中 可 以 看 出 2005 年 美国 制造 业 产 出 的 劳动 和 资本 弹性 分 别 是 0.4683 和 
0.5213。 换 言 之 , 在 研究 时 期 ,保持 资本 投入 不 变 , 劳动 投入 增加 196, 平均 导致 产 出 增加 约 0.47%。 
类 似 地 ， 保 持 劳动 投入 不 变 ， 资 本 投入 增加 1%， 平 均 导致 产 出 增加 约 0.52%。 把 两 个 产 出 弹性 
相 加 得 到 0.99， 即 为 规模 报酬 参数 的 取 值 。 不 难 发 现 ， 在 此 研究 期 间 ， 美 国 50 个 州 和 哥伦比亚 
特区 的 制造 业 具有 规模 保持 不 变 的 特征 。 而 从 纯粹 的 统计 观点 来 看 ， 所 估计 的 回归 线 对 数据 的 
拟 合 相当 良好 。R2 取 值 为 0.9642， 表 示 96% 的 产 出 《的 对 数 ) 都 可 以 由 劳动 和 资本 的 对 数 ) 
来 解释 。 当 然 ， 要 进一步 阐明 该 模型 的 有 效 性 ， 还 应 该 借助 前 面 介 绍 的 方法 对 模型 及 其 中 参数 
的 显著 性 进行 检验 。 

表 11-2 总 结 了 一 些 常用 的 不 同 函数 形式 的 模型 。 这 些 模型 的 参数 之 间 都 是 线性 的 ， 但 〈 除 
普通 线性 模型 以 外 ) 变量 之 间 却 不 一 定 是 线性 的 。 表 中 的 * 表 示 弹 性 系数 是 一 个 变量 ， 其 值 依赖 
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于 X 或 Y 或 X 与 7。 不 难 发 现 ， 在 普通 线性 模型 中 ， 其 斜率 是 一 个 常数 ， 而 弹性 系数 是 一 个 变量 。 
在 双 对 数 模型 中 ， 其 弹性 系数 是 一 个 常量 ， 而 斜率 是 一 个 变量 。 对 表 中 的 其 他 模型 而 言 ， 和 斜率 
和 弹性 系数 都 是 变量 。 


表 11-2 不 同 函数 形式 的 模型 比较 












线性 模型 

对 数 -线性 模型 
线性 -对 数 模型 
倒数 模型 











InY: = B+ Bz ln Xi Ba(Y/X) 
InY = Bi + BaXi 
¥ = B+B(1/Xi) —pB2(1/X?) 
11.5.2 ”倒数 模型 与 菲利普 斯 曲线 
通常 把 具有 如 下 形式 的 模型 称 为 倒数 模型 : 
¥ = B+B(1/Xi) + ui 
上 式 中 ， 变 量 之 间 是 非 线性 的 模型 ， 因 为 解释 变量 X 是 以 倒数 的 形式 出 现在 模型 中 的 ， 而 模型 
中 参数 之 间 是 线性 的 。 如 果 令 镶 = 1/X:， 则 模型 就 变 为 : 
下 三 床 十 2 大 十 大 
如 果 模 型 满足 普通 最 小 二 乘法 的 基本 假定 ， 那 么 就 可 以 运用 普通 最 小 二 乘法 进行 参数 估计 进而 
进行 检验 及 预测 。 倒 数 模型 的 一 个 显著 特征 是 ， 随 着 X 的 无 限 增 大 ，1/X 将 趋 近 于 零 ，Y 将 逐渐 接 
近 5; 的 渐 近 值 或 极 值 。 所 以 ， 当 变量 X 无 限 增 大 时 ， 倒 数 回 归 模型 将 逐渐 趋 近 其 渐 近 值 或 极 值 。 
图 11-2 给 出 了 倒数 函数 模型 的 一 些 可 能 的 形状 。 倒 数 模型 在 经 济 学 中 有 着 非常 广泛 的 应 用 。 


例如 , 形 如 图 11-2 中 (b) 图 所 示 的 倒数 模型 常用 来 描述 恩格尔 消费 曲线 (Engel Expenditure Curve )。 
该 曲线 表明 ， 消 费 者 对 某 一 商品 的 支出 占 其 总 收入 或 总 消费 支出 的 比例 。 


了 










Ba(1/Y)" 
-PB2(1/XY)" 





x 






Bi>0 
B2<0 






(a) 


11-2 ”倒数 函数 模型 
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倒数 模型 的 一 个 重要 应 用 就 是 被 拿 来 对 宏观 经 济 学 中 著名 的 菲利普 斯 曲线 (Phillips Curve) 
加 以 描述 。 菲 利 普 斯 曲线 最 早 由 新 西 兰 经 济 学 家 威廉 菲利普 斯 提出 ， 他 在 1958 年 发 表 的 一 篇 
文章 里 根据 英国 1861 一 1957 年 失业 率 和 货币 工资 变动 率 的 经 验 统计 资料 , 提出 了 一 条 用 以 表示 
失业 率 和 货币 工资 变动 率 之 间 交 替 关系 的 曲线 。 该 条 曲线 表明 : 当 失 业 率 较 低 时 ， 货 币 工资 增 
长 率 较 高 ， 反 之 ， 当 失业 率 较 高 时 ， 货 币 工资 增长 率 较 低 。 西 方 经 济 学 家 认为 ， 货 币 工 资 率 的 
提高 是 引起 通货 膨胀 的 原因 ， 即 货币 工资 率 的 增加 超过 劳动 生产 率 的 增加 ， 引 起 物价 上 涨 ， 从 
而 导致 通货 膨胀 。 据 此 理论 ， 美 国 经 济 学 家 保罗 。 萨 毕 尔 森 〈Paul Samuelson) 和 罗伯特 。 索 洛 
(Robert Solow) 便 将 原来 表示 失业 率 与 货币 工资 率 之 间 交 替 关 系 的 菲利普 斯 曲线 发 展 成 为 用 来 
表示 失业 率 与 通货 膨胀 率 之 间 交 蔡 关 系 的 曲线 。 事 实 上 ,“ 菲 利 普 斯 曲线 ”这 个 名 称 也 是 萨 绢 尔 
森 和 索 洛 给 起 的 。 

表 11-3 给 出 了 1958 一 1969 年 美国 小 时 收入 指数 年 变化 的 百分比 与 失业 率 数 据 ， 下 面 就 试 
着 运用 线性 回归 的 方法 来 建立 1958 一 1969 年 美国 的 菲利普 斯 曲线 。 





























表 11-3 美国 的 小 时 收入 指数 年 变化 与 失业 率 
































作为 对 比 ， 我 们 首先 采用 普通 的 一 元 线性 回归 方法 ， 请 在 R 中 执行 下 列 代 码 。 


Re 655 SS O07 om 3 833.83.63. 5 
> Y < cl42，3,5，3 4 .034 8，28 3.6，43，50，6.1，6.7) 





> phillios.lm.1 <~— Imly ~ *) 

>» coef (phillips.Ylnm.1) 

(Intercept) XxX 
8.0147014 -0.7982931 


于 是 便 得 到 如 下 形式 的 回归 方程 : 
= 8.0417 — 0.7883X; 
然后 使 用 下 面 的 代码 来 建立 倒数 模型 。 


> LOG < : 
> phillips, m2 <r LV ~ x%. roc) 
> .coef (Phillips.1m.2) | 
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(Intercept) REYeC 
-O29 0 S887 


由 此 得 到 的 回归 方程 如 下 : 
$=—0.2594 + 20.579/X; 


基于 已 经 得 到 的 参数 ， 可 采用 下 面 的 代码 来 绘制 相应 的 菲利普 斯 曲线 ， 执 行 结果 如 图 11-3 
所 示 。 
> par (mfrow = c(1;2)) 

>-piot(y ~ XY wiim -= (3 Te "ylimn 二 SCK238 37) 
+ main = "Phillips Curve (Linear Model)™") 

> abline (phillips.lm, col = "red") 


> plotty roy wn a im CR 
+ main = "Phillips Curve (Reciprocal Model)") 

> par (new=TRUE) , 

> curve( O20rt2a0 DBT or (l/lim = eC(3 0 To 2287) 
tcol wm MredM, viabs tam te) 1 or 


Phillips Curve (Linear Model) Philips Curve (Reciprocal Mode!) 








35 40 45 50 55 60 65 70 35 40 45 50 55 60 65 70 
x x 


图 11-3 菲利普 斯 曲线 


现在 来 分 析 一 下 己 经 得 到 的 结果 。 在 一 元 线性 回归 模型 中 ， 和 斜率 为 负 ， 表 示 在 其 他 条 件 保 
持 不 变 的 情况 下 , 就 业 率 越 高 , 收入 的 增长 率 就 越 低 。 而 在 倒数 模型 中 , 斜率 为 正 , 这 是 由 于 X 是 
以 倒数 的 形式 进入 模型 的 。 也 就 是 说 ， 倒 数 模型 中 正 的 斜率 与 普通 线性 模型 中 负 的 斜率 所 起 的 
作用 是 相同 的 。 线性 模型 表明 失业 率 每 上 升 1%, 平均 而 言 , 收入 的 变化 率 为 常数 , 约 为 一 0.79; 
而 另 一 方面 ， 倒 数 模型 中 ， 收 入 的 变化 率 却 不 是 常数 ， 它 依赖 于 8〈 即 就 业 率 ) 的 水 平 。 显 然 ， 
后 一 种 模型 更 符合 经 济 理论 。 此 外 , 由 于 在 两 个 模型 中 因 变 量 是 相同 的 , 所 以 我 们 可 以 比较 R? 值 ， 
倒数 模型 中 R? = 0.6594 也 大 于 普通 线性 模型 中 的 R? = 0.5153。 这 也 表明 倒数 模型 更 好 地 拟 合 
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了 观察 数据 。 而 反映 在 图 形 上 ， 也 不 难看 出 倒数 模型 对 观察 值 的 解释 更 有 效 。 


11.5.3 多项式 回归 模型 及 其 分 析 

最 后 来 考虑 一 类 特殊 的 多 元 回归 模型 一 一 多 项 式 回 归 模 型 (Polynomial Regression Model)。 
这 类 模型 在 有 关 成 本 和 生产 函数 的 计量 经 济 研究 中 有 广泛 的 用 途 , 而且 在 介绍 这 些 模型 的 同时 ， 
我 们 进一步 扩大 了 经 典 线性 回归 模型 的 适用 范围 。 

现在 有 一 组 如 图 11-4 所 示 的 数据 ,图 中 的 虚线 是 采用 普通 一 元 线性 回归 的 方法 进行 估计 的 
结果 ， 不 难 发 现 ， 尽 管 这 种 方法 也 能 够 给 出 数据 分 布 上 的 一 种 趋势 ， 但 是 由 此 得 到 的 模型 其 实 
拟 合 度 并 不 高 ， 从 图 中 可 以 非常 直观 地 看 出 估计 值 与 观察 值 间 的 误差 平方 和 是 比较 大 的 。 为 了 
提高 拟 合 效果 ， 我 们 很 自然 地 想到 使 用 多 项 式 来 建 模 ， 图 中 所 示 的 实 线 就 是 采用 三 次 多 项 式 进 
行 拟 合 后 的 结果 ， 它 显然 有 效 地 降低 了 误差 平方 和 。 


300 ] 2» 
250 | 2 a 
200 - i 


150 - 








图 11-4 多 项 式 回 归 拟 合 曲线 


事实 上 ， 采 用 多 项 式 建 模 的 确 会 较为 明显 地 提高 拟 合 优 度 。 如 果 要 解释 这 其 中 的 原理 ， 我 
们 可 以 从 微 积分 中 的 泰勒 公式 中 找到 理论 依据 。 泰 勒 公式 告诉 我 们 如 果 一 个 函数 足够 光滑 ， 那 
么 就 可 以 在 函数 上 某 点 的 一 个 邻 域内 用 一 个 多 项 式 来 对 函数 进行 逼近 ， 而 且 随 着 多 项 式 阶 数 的 
提高 ， 这 种 逼近 的 效果 也 会 越 来 越 好 。 同 理 ， 如 果 确 实 有 一 条 光滑 的 曲线 可 以 对 所 有 数据 点 都 
进行 毫 无 偏差 的 拟 合 ， 理 论 上 就 可 以 找到 一 个 多 项 式 来 对 这 条 曲线 进行 较为 准确 的 拟 合 。 
多 项 式 回归 通常 可 以 写成 下 面 这 种 形式 : 
Yi =pBot+PBiXit+PBaX? ++PBeXt + ui 


在 这 类 多 项 式 回归 中 ， 方 程 右边 只 有 一 个 解释 变量 ， 但 以 不 同 乘 方 出 现 ， 从 而 使 方程 成 为 多 元 
回归 模型 。 而 且 如 果 X 被 假定 为 固定 的 或 非 随机 的 ， 那 么 带 有 乘 方 的 各 Xi 项 也 将 是 固定 的 或 非 
随机 的 。 
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各 阶 多 项 式 对 参数 8 而 言 都 是 线性 的 ， 故 可 用 普通 最 小 二 乘法 来 估计 。 但 这 种 模型 会 带 来 
什么 特殊 的 估计 问题 吗 ? 既然 各 个 X 项 都 是 X 的 寡 函 数 ,它们 会 不 会 高 度 相 关 呢 ? 这 种 情况 的 确 
存在 。 但 是 X 的 各 阶乘 方 项 都 是 X 的 非 线性 函数 ， 所 以 严格 地 说 ， 这 并 不 违反 无 多 重 共 线 性 的 假 
定 。 总 之 ， 多 项 式 回归 模型 没有 提出 任何 新 的 估计 问题 ， 所 以 我 们 可 以 采用 前 面 所 介绍 的 方法 
去 估计 它们 。 

这 里 以 第 10 章 中 给 出 的 树 高 与 树龄 的 例子 来 说 明 构 建 多 项 式 回归 模型 的 基本 方法 。 下 面 这 
段 代码 分 别 采用 普通 的 一 元 线性 回归 方法 (这 也 是 第 10 章 中 所 用 过 的 方法 ) 以 及 多 项 式 回 归 方 
法 来 对 树 高 与 树龄 数据 进行 建 模 。 可 以 看 到 此 处 我 们 所 采用 的 是 三 阶 多 项 式 。 


>plants,.im,.l <r im(height ~ age, data ~“ plants) 
>'plants.lm.3 "lm(height ”age + Tl(age 2?) + T(age 3), data = plants) 


普通 一 元 线性 回归 的 结果 第 10 章 中 已 经 列 明 , 这 里 不 再 重复 。 下面 给 出 的 是 采用 三 阶 多 项 式 进 
行 回 归 分 析 的 结果 。 


> summary (plants LS) 


























Cell 
lm(formula = height ~ age + IT(age^2) + TIT(age^3)，qata = PlantSs) 


Residuals: 
Min 10 Median 30 Max 
-0.595397 -0.13338 0 ,02599 0.17758 0 .38591 ， 


Coefficients: 

Estimate Std,. Error t Value Pr(>|t|) 
(Intercept) 1.67381 1.22876 1.362 0.18828 
age 2.842030.96302 2.951, 0.00790 *™ 
Tlagde 2) 0,5971020.229025 2.606 0.01692 
I(age?3) 0.048150.01690 2.849 0.00992 ** 


digdnif. codess. DO xx QO OO ww 0 ol 65 TT OI 1 


Residual standard error: 0.2721 on 20 degrees of freedom 
Multiple R-squared:; 0.9517, Adiusted R-sdquared: 0.9445 
EF-statistic: 131.4 on 3 and'20 DE, p Vvalue: 2 .499en13 


由 上 述 结果 所 给 出 的 参数 估计 ， 我 们 可 以 建立 如 下 的 多 项 式 回 归 方 程 : 
多 = 1.67381 + 0.96302X 一 0.59732X? + 0.04815X? 


为 了 便于 比较 ， 可 以 采用 下 面 的 代码 来 分 别 绘制 出 采用 一 元 线性 回归 方法 构建 的 模型 曲线 
和 多 项 式 回归 方法 构建 的 模型 曲线 ， 结 果 如 图 11-5 所 示 。 直 观 上 来 看 ， 多 项 式 回归 的 效果 要 优 
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于 普通 一 元 线性 回归 。 这 一 点 可 以 从 R 中 输出 的 结果 做 出 定量 的 分 析 ， 易 见 在 多 项 式 回归 分 析 
中 R? = 0.9517， 这 个 值 也 确实 大 于 普通 一 元 线性 回归 分 析 中 的 R? = 0.9186， 这 也 表明 多 项 式 


回归 的 拟 合 优 度 更 高 。 


Height (ft) 
7 





Age (y) 
图 11-5 树龄 与 树 高 的 拟 合 曲 线 


> plot (height ~ age, data = plants, xlab="Age (y)", ylab="Height (ft)") 


newdata=data.frame (age = 


,ee 


newdata=data.frame (age = 


curve (predict (plants.1lm.1, 


x) Madd=TRUE, coOl="red"y) 


curve (predict (plants. lm.3, 


x)), add=TRUE, col="blue") 


最 后 还 需要 说 明 的 是 ， 一 味 追 求 高 的 拟 合 优 度 是 不 可 取 的 。 由 于 数据 观察 值 中 其 实 是 包含 
有 随机 噪声 的 ， 如 果 有 一 个 模型 可 以 对 观察 值 进行 天 衣 无 颖 地 拟 合 ， 这 其 实说 明 模 型 对 噪声 也 
进行 了 完美 的 拟 合 ， 这 显然 不 是 我 们 所 期 望 看 到 的 。 当 面 对 多 个 可 选 的 回归 模型 时 ， 该 如 何 进 
行 甄选 ?这 个 话题 我 们 将 在 11.6 节 中 进行 探讨 。 


11.6 ”回归 模型 的 评估 与 选择 


在 多 元 回归 分 析 中 ， 有 时 外 


法 对 多 个 模型 进行 比较 并 评估 


E 对 数据 集 进行 拟 合 的 模型 可 能 不 止 一 个 。 因 此 就 非常 有 必要 设 
上 其 中 哪个 才 是 最 合适 的 。 特 别 是 在 解释 变量 比较 多 的 时 候 ， 很 





可 能 其 中 一 些 解 释 变 量 的 显著 性 不 高 ， 决 定 保留 哪些 变量 或 者 排除 哪些 变量 都 是 模型 选择 过 程 


中 需要 慎重 考量 的 问题 。 
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11.6.1 ” 久 套 模型 选择 


有 时 在 较 好 的 拟 合 性 与 简化 性 之 间 也 要 进行 权衡 。 因 为 我 们 之 前 曾经 提 到 过 , 更 复杂 的 (或 
者 包含 更 多 解释 变量 的 ) 模型 总 是 能 够 比 简单 的 模型 表现 出 更 好 的 拟 合 优 度 。 这 是 因为 更 小 的 
残 差 平 方 和 就 意味 着 更 高 的 R? 值 。 但 是 如 果 在 拟 合 优 度 差别 不 大 的 情况 下 ， 我 们 则 更 倾向 于 选 
择 一 个 简单 的 模型 。 所 以 一 个 大 的 指导 原则 就 是 除非 复杂 的 模型 能 够 显著 地 降低 残 差 平 方 和 ， 
否则 就 坚持 使 用 简单 的 模型 。 这 也 被 称 为 是 “精简 原则 ”或 * 音 汕 原 则 ”( Principle of Parsimony )。 


当 我 们 对 比 两 个 模型 时 ， 其 中 一 个 恰好 是 另外 一 个 的 特殊 情况 ， 那 么 就 称 这 两 个 模型 是 嵌 
套 模型 。 这 时 最 通常 的 做 法 是 基于 前 面 介绍 的 F 检 验 来 进行 模型 评估 。 当 然 ， 应 用 FF 检验 的 前 提 
仍然 是 我 们 本 章 始终 强调 的 几 点 ， 即 误差 满足 零 均值 、 同 方差 的 正 态 分 布 ， 并 且 被 解释 变量 与 
解释 变量 之 间 存 在 线性 关系 。 


基于 上 述 假设 ,对 两 个 嵌 套 模型 执行 F 检 验 的 基本 步骤 如 下 :假设 两 个 模型 分 别 是 Mo 和 AMi， 
其 中 Mo 被 模 套 在 Mi 中 ， 即 Mo 是 Mi 的 一 个 特例 ， 且 Mo 中 的 参数 数量 po 小 于 Mi 中 的 参数 数量 pi 。 
令 yi,yz,…, 斩 表示 响应 值 的 观察 值 。 对 于 M6， 首先 对 参数 进行 估计 ， 然 后 对 于 每 个 观察 值 y; 计 
算 其 预测 值 关 ， 然 后 计算 残 差 y; 一 ， 其 中 i = 1,…,n。 并 由 此 得 到 残 差 平 方 和 ， 对 于 模型 Mo， 
将 它 的 残 差 平 方 和 记 为 RS56。 与 RSSo 相 对 的 自由 度 为 4fo = n 一 po。 重复 相同 的 步 又 即 可 获得 
与 Mi 相对 的 RSS; 和 qf。 此 时 F 统 计量 就 由 下 式 给 出 : 

_ (RS5o0 — RSS1)/(dfo — dfi) 
RSS1/dfi 
在 空 假设 之 下 , F 统 计量 满足 自由 度 为 (df 一 dfi, di) 的 F 分 布 。 一 个 大 的 F 值 表示 残 差 平方 和 的 
变化 也 很 大 《〈 当 我 们 将 模型 从 Mo 转换 成 Mi 时 )。 也 就 是 说 M; 的 拟 合 优 度 显著 好 于 Mu。 因 此 ， 较 
大 的 F 值 会 让 我 们 拒绝 Ho。 注意 这 是 一 个 右 尾 检验 ， 所 以 我 们 仅 取 F 分 布 中 的 正 值 , 而 且 仅 当 M。o 
拟 合 较 差 时 F 统 计量 才 会 取得 一 个 较 大 的 数值 。 

残 差 平方 和 度量 了 实际 观察 值 偏离 估计 模型 的 情况 。 一 RSS1 的 差 值 较 小 ， 那 么 模型 
Mo 就 与 Mi 相差 无 几 ， 此 时 基于 “ 音 甫 原则 ”我 们 会 倾向 于 接受 Mo。， 因 为 模型 Mi 并 未 显著 地 优 
于 Mo。 进 一 步 观察 F 统 计量 的 定义 ,不 难 发 现 ， 一 BRSSi /df 

一 方面 ， 它 也 评估 了 两 个 模型 间 残 差 平方 和 的 减少 是 以 额外 增加 多 少 个 参数 为 代价 的 。 

还 是 来 考察 树龄 和 树 高 的 例子 。 第 10 章 中 我 们 使 用 一 元 线性 回归 来 构建 模型 ， 本章 我 们 使 
用 多 项 式 回归 的 方法 来 建 模 。 显 然 ， 一 元 线性 模型 是 本 章 中 多 项 式 回 归 模型 的 一 个 特例 ， 即 两 
个 模型 构成 了 舱 套 关系 。 下 面 的 代码 对 这 两 个 回归 模型 进行 了 ANOVA 分 析 。 


> anoVa (poe lm. I, plants. Lim, 3) 



































Analysis of Variance Table 
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Model 1: height ~ age 

Model 2: height ~ age + 工 (age^2) + I (age’3) 
Res De Ros "DE Swm oflSq ET FT 

:2221.496 

2 20 .1.4808 2 1.0153 6.8566 0.005399 ** 


SiGni6 SOUS Oe EO 0 OT 0 


从 上 述 结果 中 可 以 看 到 RSSo = 2.4960 和 RSS1 = 1.4804， 以 及 

(2.4960 — 1.4804)/2 

4804/20 

车 原 假设 为 真 ， 则 有 Pr(F22o > 6.8566) = 0.0054， 可 见 这 个 概率 非常 低 ， 因 此 我 们 在 5% 的 显 

著 水 平 上 拒绝 原 假设 。 而 原 假设 是 说 两 个 模型 的 RSS 没 有 区 别 。 现 在 原 假设 被 拒绝 了 ， 即 认为 

二 者 之 间 存 在 区 别 ， 加 之 RSS1 < RSSo， 所 以 认为 M1 相 比 于 Mo 而 言 ， 确 实 显著 降低 了 RSS。 最 

后 再 次 提醒 读者 注意 ， 本 节 所 介绍 的 方法 仅 适 用 于 嵌 套 模型 ， 这 也 是 对 两 个 回归 模型 进行 
ANOVA 分 析 的 基础 。 


11.6.2” 赤 池 信 息 准 则 

赤 池 信息 准则 (AIC，Akaike’s Information Criterion) 是 统计 模型 选择 中 《用 于 评判 模型 优 
劣 的 ) 一 个 应 用 非常 广泛 的 信息 量 准则 ， 它 是 由 日 本 统计 学 家 赤 池 弘 次 (Hirotugu Akaike) 于 
20 世纪 70 年 代 左 右 提出 的 。AIC 的 定义 式 为 AIC = 一 2 In(£L) + 2k， 其 中 L 是 模型 的 极 大 似 然 函 
数 ，k 是 模型 中 的 独立 参数 个 数 。 

当 我 们 打算 从 一 组 可 供 选 择 的 模型 中 选择 一 个 最 佳 模型 时 ， 应 该 选择 AIC 值 最 小 的 模型 。 
当 两 个 模型 之 间 存 在 着 相当 大 的 差异 时 ， 这 个 差异 就 表现 在 AIC 定义 式 中 等 式 右边 的 第 1 项 ， 
而 当 第 1 项 不 出 现 显 著 性 差异 时 ， 第 2 项 则 起 作用 ， 从 而 参数 个 数 少 的 模型 是 好 的 模型 。 这 其 
实 就 是 前 面 曾经 介绍 过 的 “ 音 冀 原则 ”的 一 个 具体 化 应 用 。 

设 随机 变量 Y 具 有 概率 密度 函数 q(y|6)，B 是 参数 向 量 。 当 我 们 得 到 Y 的 一 组 独立 观察 值 
yy y2,"… ,YN 时 ， 定义 8 的 似 然 函 数 为 : 

£(B) =9OxalB)qg0z18) …qgOwlBD) 

极 大 似 然 法 是 ， 采 用 使 (8) 为 最 大 的 6 的 估计 值 6 作 为 参数 值 。 当 刻画 Y 的 真实 分 布 的 密度 函数 
p(y) 等 于 q(y|Bo) 时 ,车 N 一 %, 则 是 Bo 的 一 个 良好 的 估计 值 。 这 时 所 叫 作 极 大 似 然 估 计 值 (MLE,， 
Maximum Likelihood Estimate )。 

现在 ， 也 可 以 考虑 为 不 是 使 得 似 然 函数 L(B) 而 是 使 得 对 数 似 然 函 数 1(B) = ln L(B) 取 得 最 
大 值 的 8 的 估计 值 。 由 于 


= 6.8566 
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HB) = > InaqCyilp) 
当 N 二 co 时 ， 几 乎 处 处 有 : 


N 
1 
A > EInq(Y|p) 


其 中 E 表 示 Y 的 分 布 的 数学 期 望 。 由 此 可 知 ， 极 大 似 然 估计 值 B 是 使 E ln q(Y|B) 为 最 大 的 B 的 估计 
值 。 我 们 有 : 


Flnq(ylp) = | pOy) Inq(ylB) dy 


而 根据 库 尔 贝 克 - 莱 布 勒 (Kullback- Leibler〉 散 度 (或 称 相对 炉 ) 公式 : 
p(y) 
q(y|B) 
是 非 负 的 ， 所 以 只 有 当 q(y|B) 的 分 布 与 p(y) 的 分 布 相 一 致 时 才 等 于 零 ， 于 是 原本 想 求 的 
Elnp(Y|B) 的 极 大 化 ， 就 准则 D[p(y); q(y|6)] 而 言 ， 即 是 求 近似 于 p(y) 的 q(y|B8)。 这 个 解释 就 透 
彻 地 说 明了 极 大 似 然 法 的 本 质 。 

作为 衡量 6 优 劣 的 标准 ， 我 们 不 使 用 残 差 平方 和 ， 而 使 用 E*D [p(y); q(y|6)]， 这 里 hb 是 现在 
的 观察 值 xi, x2,… ,xw 的 函数 , 假定 xj, x2,… ,Xxw 与 yy,y2,…,yn 独 立 但 具有 相同 的 分 布 , 同时 让 E* 
表示 对 x1,xz,…,xw 的 分 布 的 数学 期 望 。 忽 略 E"D [p(y);q(yIB)] 中 的 公共 项 Inp(Y)， 只 要 求 得 
有 关 E*E ln q(Y|B) 的 良好 的 估计 值 即 可 。 


考虑 Y 与 y1,y2,…,ywn 为 相互 独立 的 情形 ， 设 p(y) = qGy1Bo)， 那 么 当 N 一 oo 时 ，-2ln 4 渐 近 
地 服从 误 分 布 ， 此 处 





D[p(O);qClB)] = Elnp(y) -Elng(YlB) = p(y) In-22 dy 


2 max (fo0) 

~ maxl(f) 
并 且 k 是 参数 向 量 B 的 维 数 。 于 是 ， 极 大 对 数 似 然 函 数 

1(6) = > Ina(yilf) 5S 1(B0) = 》inqOnulpo) 

之 差 的 2 倍 ， 在 N ”oo 时 ， 渐 近 地 服 从 如 分 布 ，K 是 参数 向 量 的 维 数 。 由 于 卡 方 分 布 的 均值 等 
于 其 自由 度 ，21(b) 比 起 21(Bo) 来 说 平均 地 要 高 出 k 那 么 多 。 这 时 ，21(B) 在 8 = 的 邻近 的 形状 
可 由 2E*1(B) 在 B = Bo 邻近 的 形状 来 近似 ， 且 两 者 分 别 由 以 B = 记 和 B = po 为 顶点 的 二 次 曲面 来 
近似 。 这 样 一 来 , 从 21( 记 来 看 21(Bo) 时 ,后 者 平均 地 只 低 k 那 么 多 , 这 意味 着 反 过 来 从 2E*1(B0) 再 
来 看 [2E*1(B)]p_8 时 ， 后 者 平均 只 低 k 那 么 多 。 


由 于 2E*1(B) = 2NE ln q(Y|B)， 如 果 采 用 21(b) - 2K 来 作为 
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E{[2E*1(B)]g-8} = 2NE’E In q(Y|f) 


的 估计 值 ， 则 由 k 之 差 而 导致 的 偏差 得 到 了 修正 。 为 了 与 相对 米 相 对 应 ,把 这 个 量 的 符号 颠倒 过 
来 ， 我 们 得 到 : 


AIC = (-2)L(B) + 2k 


所 以 上 式 可 以 用 来 度量 条 件 分 布 g(y|B) 与 总 体 分 布 p(y) 之 间 的 差异 。AIC 值 越 小 ， 二 者 的 接近 
程度 越 高 。 一 般 情况 下 , 当 B 的 维 数 k 增 加 时 , 对 数 似 然 函 数 1( 记 也 将 增加 , 从 而 使 AIC 值 变 小 。 
但 当 k 过 大 时 ，1(f) 的 增 速 减缓 ， 导 致 AIC 值 反 而 增加 ， 使 得 模型 变 坏 。 可 见 AIC 准则 有 效 且 
合理 地 控制 了 参数 维 数 。 显 然 AIC 准则 在 追求 !() 尽 可 能 大 的 同时 ，k 要 尽 可 能 小 ， 这 就 体现 
了 “ 音 背 原则 ”的 思想 。 

R 语言 中 提供 的 用 以 计算 AIC 值 的 函数 有 两 个 ， 第 一 个 函数 为 AIC()。 具 体 来 说 ， 在 评估 
回归 模型 时 ， 如 果 使 用 AICO 函 数 ， 那 么 就 相当 于 采用 下 面 的 公式 来 计算 AIC 值 : 


AIC=n+nln2nt+nln(SSresidua/n) + 2(p + 1) 
因为 对 数 似 然 值 的 计算 公式 如 下 , 只 要 将 其 带 入 前 面 讨论 的 AIC 公式 就 能 得 到 上 面 的 AIC 算式 : 


n n 
了 三 一 F a 2 一 本 In(SSresidual/ my) 2 


理论 上 AIC 准则 不 能 给 出 模型 阶 数 的 相 容 估计 ， 即 当 样 本 趋 于 无 穷 大 时 ， 由 AIC 准则 选择 的 模 
型 阶 数 不 能 收敛 到 其 真 值 。 此 时 须 考 虑 用 BIC 准则 (或 称 Schwarz BIC)，BIC 准则 对 模型 参数 
考虑 更 多 ， 定 出 的 阶 数 低 。 限 于 篇 幅 ， 此 处 不 打算 对 BIC 进行 过 多 解释 ， 仅 仅 给 出 其 计算 公式 
如 下 : 


BIC=n+nln2n+nln(SSresidual/n) + (Inn)(p + 1) 


我 们 可 以 使 用 BIC() 函 数 来 获取 回归 模型 的 BIC 信息 量 。 另 外 ， 在 AIC0 函 数 中 ， 有 一 个 默认 值 
为 2 的 参数 k， 如 果 将 其 改 为 log(n)， 那 么 此 时 AICO 算 的 就 是 BIC 值 。 这 一 点 从 它们 两 者 的 计 
算 公 式 也 很 容易 能 看 出 来 。 现 在 就 来 计算 一 下 土壤 沉淀 物 吸 收 情 况 例 子 中 所 构建 之 回归 模型 的 
AIC 值 和 BIC 值 ， 示 例 代码 如 下 。 


> N13 
ph Re 
> rss <- sum(soil.lm$residuals * soil.lJm$residuals) 


> AIC(soil.1m) 

[11722 
入 (pl) 
Wh a ed oe gpd : 


SBLIG(SoOLT Lm) 
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[1] 82.14102 
> ATC(SOTL: Lm KK = 10g(n)) 
[ELIS ALO 
>ntn* lo09(2 * pi) + n * log(rss/n) + log(n) * (p+1) 
[T8224402 
R 语言 中 提供 的 另外 一 个 用 于 计算 AIC 值 的 函数 是 extractAIC(), 当 我 们 采用 这 个 函数 来 计 
算 时 ， 就 相当 于 采用 下 面 的 公式 来 计算 AIC 值 : 


AIC = nln(SSresigual/n) + 2p 
相应 的 BIC 值 计 算 公 式 为 : 
BIC = nln(SSresidual/n) + (Inn)p 
比如 在 土壤 沉淀 物 吸收 情况 的 例子 中 ， 我 们 可 以 采用 下 面 的 代码 来 获取 AIC 值 和 BIC 值 。 


> extractAIC (soil .1lm) 

[1] 3.00000 40.98882 

xn oP(r seat 2 2 8 

[1] 40.98882 

> extractaLrolso lm Ke "Log tn)) 
[1] 3.00000 42.68367 

>,n 2 09 (rsstn)ot 0g(n} =* Bp 

[1] 42.68367 


11.6.3 ”逐步 回归 方法 

为 了 检测 水 泥 中 各 种 成 分 在 水 泥 硬 化 过 程 中 对 于 散热 的 影响 ， 研 究 人 员 进 行 了 相关 实验 。 
共 获 得 实验 数据 14 组 , 每 组 都 包含 4 个 解释 变量 以 及 一 个 响应 值 , 读者 可 以 使 用 下 面 的 代码 读 
入 相关 数据 。 


> heat <- read.csv("c:/cement.csv") 


其 中 y 表 示 每 克 水 泥 的 散热 量 (单位 : 卡路里)，xi 表 示 水 泥 中 3Ca0 . Al,0s 的 含量 ，xs 表 示 水 泥 
中 3Ca0 , Si0; 的 含量 ,xs 表 示 水 泥 中 4Ca0 . Al203 , Fe,03 的 含量 ，xs 表 示 水 泥 中 2Ca0 . Si0; 的 含 
量 。 数 据 文件 可 以 从 本 书 的 在 线 支持 网 站 中 得 到 ， 限 于 篇 幅 ， 这 里 不 再 详细 列 出 。 


在 实际 分 析 中 ， 使 用 多 元 线性 模型 描述 变量 之 间 的 关系 时 ， 无 法 事先 了 解 哪些 变量 之 间 的 
关系 显著 ， 就 会 考虑 很 多 的 潜在 自 变 量 。 例 如 在 水 泥 散 热 分 析 的 这 个 例子 中 ， 我 们 并 不 能 提前 
预知 4 种 成 分 中 哪些 对 于 水 泥 的 散热 具有 显著 影响 。 因 此 便 不 得 不 考虑 所 有 的 可 能 情况 ， 如 表 
11-4 所 示 ， 我 们 给 出 了 各 种 可 能 的 线性 组 合 模 型 下 用 于 评价 拟 合 优 度 的 R? 值 和 AIC 值 ， 其 中 
AIC 值 由 函数 extractAIC() 获 得 。 从 表 中 的 结果 来 看 , 模型 (xi, xz, xs) 应 该 最 好 的 ,因为 它 的 AIC 
值 最 小 。 尺 管 模型 (xi, xz,xa,x4) 的 R? 值 略 高 于 (xi,xz,xa)， 但 这 是 以 增加 一 个 解释 变量 为 代价 换 
取 的 ， 基 于 “ 音 冀 原则 ”， 我 们 当然 更 倾向 于 选择 更 加 精简 的 模型 。 
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Rs Wd 


X1 
X2 
X3 
Xs 
X1,X2 
Xi X3 
X1,X4 
Xz X3 
Xi Ra 
We 
X1s X2s X3 
X1, X2, Xa 
i 


Xz X31 Xa4 


表 11-4 拟 合 度 评价 指标 














X11 X21, X31, Xa4 


但 是 上 面 这 种 事后 再 逐一 评估 剔 除 欠 妥 的 变量 的 做 法 显然 会 使 建 模 过 程 变 得 烦琐 复杂 。 为 
了 简化 建 模 过 程 ， 一 个 值得 推荐 的 方法 就 是 所 谓 的 逐步 回归 法 (Stepwise Method)。 逐 步 回 归 建 
模 时 ， 按 偏 相关 系数 的 大 小 次 序 〈 即 解释 变量 对 被 解释 变量 的 影响 程度 ) 将 自 变量 逐个 引入 方 
程 ， 对 引入 的 每 个 自 变量 的 偏 相关 系数 进行 统计 检验 ， 效 应 显著 的 自 变量 留 在 回归 方程 内 ， 如 
此 继续 送 选 下 一 个 自 变量 。R 中 进行 逐步 回归 的 函数 是 step()， 并 以 AIC 信息 准则 作为 添加 或 
删除 变量 的 判别 方法 。 

从 一 个 包含 所 有 解释 变量 的 “完整 模型 ”开始 ， 首 先 消除 其 中 最 不 显著 的 解释 变量 ， 再 消 
除 其 次 不 显著 的 变量 (如 果 有 的 话 ), 继续 下 去 直到 最 后 所 保留 的 都 是 显著 的 解释 变量 。 该 类 型 
的 逐步 回归 方法 也 称 为 “后 向 消除 法 ” 例如 下 面 的 代码 所 演示 的 就 是 进行 后 向 消除 的 过 程 。 








AIC 
0.53400 63.52 
0.66600 59.18 
6907 
S885 
254 
55 
2874 
5104 
0.93500 39.85 
250 
2497 
2 
0.98237 26.94 


> heat liml sdm(y Kl xdd oatarhoat) 


>"steptheat lmnlr wh 


Start: AIC=26.94 


A 


Df Sum of Sq 


RSS AIC 


x 4 O01097%4765973 24.974 
- x4 工 0.2470 48-.111 25.011 
Re 22925° 50630 25 .7128 


<none> 


47.864 26.944 


A 29559509-735815390.5 
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函数 step() 中 的 参数 direction 用 于 控制 逐步 回归 的 方向 , 如 果 用 于 确定 逐步 搜索 范围 的 参数 scope 
缺 省 ， 那 么 direction 的 默认 值 就 是 “backward”， 所 以 下 面 的 这 种 语法 与 前 面 所 采用 的 语法 是 等 
价 的 。 
tep( 
从 输出 结果 来 看 ， 最 终 得 到 的 回归 方程 为 : 
=71.6483 + 1.4519x1 + 0.4161x, — 0:2365x, 
这 与 本 节 开 始 时 分 析 所 得 之 结果 是 一 致 的 。 


与 后 向 消除 法 相对 应 的 还 有 “前 向 选择 法 ” 此 时 我 们 将 从 一 个 空 模型 开始 ， 然 后 向 其 中 加 
入 一 个 最 显著 的 解释 变量 ， 再 加 入 其 次 显著 的 解释 变量 (如 果 有 的 话 )， 直 到 仅 剩 下 那些 不 显著 
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默认 情况 下 , step(0) 函 数 中 参数 trace 的 默认 值 为 TRUE, 此 时 逐步 回归 分 析 的 过 程 将 被 打印 出 来 。 
如 果 希 望 精简 逐步 回归 分 析 的 输出 结果 ， 可 以 将 其 置 为 FALSE。 
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11.7 ”现代 回归 方法 的 新 进展 


当 设 计 和 矩 阵 X 呈 病态 时 ,XX 的 列 向 量 之 间 有 较 强 的 线性 相关 性 ， 即 解释 变量 间 出 现 严 重 的 多 
重 共 线性 。 这 种 情况 下 ， 用 普通 最 小 二 乘法 对 模型 参数 进行 估计 ， 往 往 参 数 佑 计 的 方差 太 大 ， 
使 普通 最 小 二 乘法 的 效果 变 得 很 不 理想 。 为 了 解决 这 一 问题 ， 统 计 学 家 从 模型 和 数据 的 角度 考 
虑 ， 采 用 回归 诊断 和 自 变量 选择 来 克服 多 重 共 线性 的 影响 。 另 一 方面 ， 人 们 还 对 普通 最 小 二 乘 
估计 进行 了 一 定 的 改进 。 本 章 将 以 岭 回归 和 Lasso 方法 为 例 来 讨论 现代 回归 分 析 中 的 一 些 新 进 
展 和 新 思想 。 


11.7.1 多重 共 线 性 
前 面 已 经 讲 过 ， 多 元 线性 回归 模型 有 一 个 基本 假设 ， 即 要 求 设计 矩阵 X 的 列 向 量 之 间 线 性 
无 关 。 下 面 就 来 研究 一 下 ， 如 果 这 个 条 件 无 法 满足 ， 将 会 导致 何 种 后 果 。 设 回归 模型 
y=po+HPxaT+p2xz 十 … 十 Boxp 十 E 


存在 完全 的 多 重 共 线性 , 换言之 , 设计 和 矩阵 X 的 列 向 量 间 存在 不 全 为 零 的 一 组 数 co, cu c2,…, cp， 
使 得 : 





co 十 CIXil 十 CoaXiz 十 … 十 CpXip = 0, i = 12; 5 ;Nn 
此 时 便 有 |XTX| = 0。 
前 面 曾经 给 出 多 元 线性 回归 模型 的 矩阵 形式 为 ; 
Y= Xf+e 








并 且 正 规 方 程 组 可 以 表示 为 : 

(XT™X)PB = XT7 
进而 ， 当 系数 矩阵 可 逆 时 ， 正 规 方程 组 的 解 为 

B= (CXTOD-IXTY 

由 线性 代数 知识 可 得 ， 德 阵 可 逆 的 充分 必要 条 件 是 其 行列 式 不 为 零 。 通 常 把 一 个 行列 式 等 

于 零 的 方 阵 称 为 奇异 矩阵 ， 即 可 逆 和 矩阵 就 是 指 非 奇异 矩阵 。 显 然 ， 存 在 完全 共 线 性 时 ， 系 数 扰 
阵 的 行列 式 |XTX| = 0， 此 时 系数 矩阵 是 不 可 道 的 ， 即 (XTX)”! 不 存在 。 所 以 回归 参数 的 最 小 二 
乘 估计 表达 式 也 不 成 立 。 


另外 ， 在 实际 问题 中 ， 更 容易 发 生 的 情况 是 近似 共 线 性 的 情形 ， 即 存在 不 全 为 零 的 一 组 数 


co ccz Cp， 使得: 


co 十 ciXii + CaXiz + ***+ CpXip ~ 0， i= 1,2,%,n 
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这 时 , 由 于 |XTX| = 0, (XTX)-1! 的 对 角 线 元 素 将 变 得 很 大 , B 的 方差 阵 D(B) = o?(XTX)-! 的 
对 角 线 元 素 也 会 变 得 很 大 , 而 D(B) 的 对 角 线 元 素 就 是 相应 Bi 的 方差 var(fi)。 因 而 Bo, PB1,…, PB 的 
就 会 致使 解释 变量 对 被 解释 变量 的 影响 程度 无 法 被 正确 评价 ， 甚 至 可 能 得 出 与 实际 数值 截然 相 
反 的 结果 。 下 面 就 通过 一 个 例子 来 说 明 这 一 点 。 
y=10+2x1+3x2+E 
现 给 定 x1、x2 的 10 组 值 ， 如 表 11-5 所 示 。 然 后 用 模拟 的 方法 产生 10 个 正 态 分 布 的 随机 数 ， 作 
一 -5 人 
ls 1.8 
KR 1.9 
ee ee 
房 =11292， 房 =11307， f= -6.591 
这 个 结果 ， 也 就 表明 xi 与 x 之 间 高 度 相 关 。 这 也 就 揭示 了 存在 多 重 共 线性 时 ， 普 通 最 小 二 乘 估 
计 可 能 引起 麻烦 。 
在 普通 最 小 二 乘 估计 的 众多 改进 方法 中 ， 岭 回归 无 疑 是 当前 最 有 影响 力 的 一 种 新 思路 。 针 
对 出 现 多 重 共 线 性 的 情况 ， 普 通 最 小 二 乘 估计 将 发 生 严重 劣化 的 问题 ， 美 国 特 拉 华 大 学 的 统计 
的 方法 。 后 来 ， 霍 尔 和 罗伯特 。 肯 纳 德 (Robert W. Kennard) 在 20 世纪 70 年 代 又 对 此 进行 了 
详细 的 讨论 。 
不 妨 设想 给 XXX 加 上 一 个 正常 数 矩 阵 11， 其 中 4 > 0。 那 么 和 XTX 十 11 接近 奇异 的 程度 就 会 比 XTX 
接近 奇异 的 程度 小 得 多 。 于 是 原 正规 方程 组 的 解 就 变 为 : 


估计 精度 很 低 。 如 此 一 来 ， 虽 然 用 最 小 二 乘 估 计 能 得 到 B 的 无 偏 估 计 ， 但 估计 量 B 的 方差 很 大 ， 
假设 解释 变量 x 、x; 与 被 解释 变量 y 的 关系 服从 多 元 线性 回归 模型 ; 
为 误差 项 ev sz …,sio。 再 由 上 述 回 归 模 型 计算 出 10 个 相应 的 yi; 值 。 
HE 
a 
这 显然 与 原 模型 中 的 参数 相去 甚 远 。 事 实 上 ， 如 果 计 算 x1、x2 的 样本 相关 系数 就 会 得 到 0.986 
11.7.2 ”上 岭 回归 
学 家 亚 瑟 。 霍 尔 (Arthur E. Hoerl) 在 1962 年 首先 提出 了 现今 被 称 为 岭 回归 (Ridge Regression) 
岭 回 归 提出 的 想法 是 很 自然 的 。 正 如 前 面 所 讨论 的 , 自 变 量 间 存在 多 重 共 线 性 时 , |XTX| = 0， 
B() = (XTX + AD-1XTY 
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上 式 称 为 B 的 岭 回归 估计 , 其 中 4 是 岭 参 数 .BB(4) 作 为 8 的 估计 应 比 最 小 二 乘 估计 BB 稳定。 特别 地 ， 
当 4 = 0 时 的 岭 回归 估计 房 (0) 就 是 普通 最 小 二 乘 估计 。 这 是 理解 岭 回 归 最 直观 的 一 种 方法 ， 后 面 
我 们 还 会 从 另外 一 个 角度 来 解读 它 

因为 岭 参 数 1 不 是 唯一 确定 的 ， 所 以 得 到 的 岭 回 归 估 计 羽 (D) 实 际 是 回归 参数 B 的 一 个 估计 族 。 
例如 ， 对 11.7.1 节 中 讨论 的 例子 可 以 算得 4 取 不 同 值 时 ， 回 归 参 数 的 不 同 估计 结果 ， 如 表 11-6 
所 示 。 


表 11-6 参数 估计 族 


= 
11.31 3.48 pA 2.39 2.06 1.66 1.43 2 
页 而 而 而 辐 辐 而 而 而 辐 
以 1 为 横 坐 标 ， 房 (0 、 记 (CD) 为 纵 坐 标 画 成 图 11-6。 从 图 11-6 中 可 看 到 , 当 4 较 小 时 , fi (1)、 
房 (CU 很 不 稳定 ， 当 1 逐渐 增 大 时 ， 房 (0 、 记 (0) 趋 于 稳定 。4 取 何 值 时 ， 对 应 的 房 (D、 记 GD) 才 
一 个 优 于 普通 最 小 二 乘 估计 的 估计 呢 ? 这 是 实际 应 用 中 非常 现实 的 一 个 问题 ， 但 本 书 无 意 在 
此 处 展开 ， 有 兴趣 的 读者 可 以 参阅 其 他 相关 著作 以 了 解 更 多 。 










BN) 





图 11-6 ”估计 值 随 岭 参 数 的 变化 情况 


11.7.3” 从 岭 回 归 到 Lasso 


下 面 尝试 从 另外 一 个 角度 来 理解 岭 回归 的 意义 。 回 想 一 下 普通 最 小 二 乘 估 计 的 基本 思想 ， 
我 们 其 实 是 希望 参数 估计 的 结果 能 够 使 得 由 下 面 这 个 公式 所 给 出 的 离 差 平 方 和 最 小 。 


> -2 -Sm -> xy 


j=1 
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但 是 ， 当 出 现 多 重 共 线性 时 ， 由 于 估计 量 B 的 方差 很 大 ， 上 述 离 差 平方 和 取 最 小 时 依然 可 能 很 
大 ， 这 时 我 们 能 想到 的 方法 就 是 引入 一 个 惩罚 因子 ， 于 是 可 得 : 


RRS(Pidge) = argmin (Ze — XIB) + Sy | 
i=1 j=1 

可 想 而 知 的 是 ， 当 估计 量 B 的 方差 很 大 时 ， 上 式 再 取 最 小 值 ， 所 得 之 离 差 平方 和 势必 被 压缩 ， 
从 而 得 到 更 为 理想 的 回归 结果 。 

对 上 式 求 极 小 值 ， 并 采用 向 量 形式 对 原 式 进行 改写 ， 便 可 根据 微 积分 中 的 费 马 定理 得 到 : 

ORRS(B™idee) 9 | —xB) (Y — xB) + 248"B| 时 
op [9 
2XTXP — 2XTY +2148 =0= XTXPB+AB = XY 
进而 有 : 
XTY = (XTX+ADB SPB= (XIX+AD-1XTY 

最 终 便 得 到 了 与 11.7.2 节 中 一 致 的 参数 岭 回 归 估 计 表 达 式 。 

再 来 观察 一 下 RRS(BRidse ) 的 表达 式 , 你 能 否 发 现 某 些 我 们 曾经 介绍 过 的 关于 最 优化 问题 的 


蛛丝马迹 。 是 的 ， 这 其 实 是 一 个 带 不 等 式 约束 的 优化 问题 而 导出 的 广义 拉 格 朗 日 函数 。 原 始 的 
不 等 式 约束 优化 问题 可 写 为 : 


nn 
argmin De 一 XTP) ， Ca ~ 请 一 Cs0 
A i 


其 中 C 是 一 个 常数 。 


泛 函 分 析 的 基本 知识 告诉 我 们 ,n 维 矢量 空间 R% 中 的 元 素 X = [xi] 人 Ei 的 范 数 可 以 定义 为 如 下 
形式 : 


1 
n 
lxl = [| 
i=1 


这 也 就 是 所 谓 的 欧 几 里 得 范 数 。 我 们 还 可 以 更 一 般 地 定义 〈z 为 任意 不 小 于 1 的 数 ): 


亚 
LG p 
>》 xp 
i=1 


于 是 如 果 采 用 范 数 的 形式 ， 前 面 的 极 值 表 达 式 还 常常 写成 下 面 这 种 形式 : 


|Xll = 
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argmin Y — XIB) + 4B 
对 DX ) a 
进而 得 到 原始 的 不 等 式 约束 优化 问题 为 : 

argmin Y— XIp 二 s.t.|B 2 


其 中 C 是 一 个 常数 。 

此 时 这 个 优化 问题 的 意义 就 变 得 更 加 明晰 了 。 现 在 以 二 维 的 情况 为 例 来 加 以 说 明 ， 即 此 时 
参数 向 量 B8 由 PB1 和 Bs 两 个 分 量 构 成 。 如 图 11-7 所 示 ， 当 常数 C 取 不 同 值 时 ， 二 维 欧 几 里 得 范 数 所 
限定 的 界限 相当 于 是 一 系列 同心 但 半径 不 等 的 圆 形 。 向 量 B 所 表示 的 是 二 维 平面 上 的 一 个 点 ， 
而 这 个 点 就 必须 位 于 一 个 个 圆 形 之 内 。 另 一 方面 ， 红 色 的 原点 是 采用 普通 最 小 二 乘 估计 求 得 的 
(不 带 约束 条 件 的 ) 最 小 离 差 平方 和 。 围 绕 在 它 周 围 的 闭合 曲线 表示 了 一 系列 的 等 值 线 。 也 就 是 
说 ， 在 同一 条 闭合 曲线 上 ， 离 差 平 方 和 是 相等 的 。 而 且 随 着 闭合 曲线 由 内 向 外 扩张 ， 离 差 平 方 
和 也 会 逐渐 增 大 。 我 们 现在 要 求 的 是 在 满足 约束 条 件 的 前 提 下 ， 离 差 平方 和 取得 最 小 值 ， 显 然 
等 值 线 与 圆周 的 第 一 个 切 点 及 就 是 我 们 要 求 取 的 最 优 解 。 





图 11-7 怜 回 归 的 意义 


可 见 ， 根 据 n 维 矢量 空间 p = 2 时 的 范 数 定义 ， 就 能 推演 出 岭 回 归 的 方法 原理 。 其 实 我 们 也 
很 自然 地 会 想到 ， 简 化 这 个 限制 条 件 ， 采 用 p = 1 时 的 范 数 定 义 来 设计 一 个 新 的 回归 方法 ， 即 : 


n 
argmin 2 (Y -好 全 ， s.t. Bl sc 
i=1 
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pi 


此 时 新 的 广义 拉 格 朗 日 方程 就 为 : 
in| > (Y — XIB) + lB | 
ae |>( ) + 和 8 


这 时 得 到 的 回归 方法 就 是 所 谓 的 Lasso (Least Absolute Shrinkage and Selection Operator) 方法 。 
该 方法 最 早 由 美国 斯 坦 福 大 学 的 统计 学 家 罗伯特 。 蒂 博 施 兰 尼 (Robert Tibshirani) 于 1996 年 提 
出 。 


根据 前 面 给 出 的 范 数 定义 ， 当 p = 1 时 ， 


lelh = > 8 
i=1 


对 于 二 维 向 量 而 言 ， | 好 ,sc 所 构成 的 就 是 如 图 11-8 所 示 的 一 系列 以 原点 为 中 心 的 萎 形 ， 即 
15 +181<C。 从 图 11-8 中 我 们 可 以 清晰 地 看 出 Lasso 方法 的 意义 ， 这 与 岭 回 归 的 情形 非常 类 
似 。 只 是 将 限定 条 件 从 圆 形 换 成 了 菱形 ， 这 里 不 再 獒 言 。 














图 11-8 ”Lasso 方法 的 意义 


与 岭 回 归 不 同 ，Lasso 方法 并 没有 明确 的 解析 解 ( 或 称 闭 式 解 ，closed-form solution)， 但 是 
Lasso 方法 的 解 通常 是 稀疏 的 ， 因 此 非常 适用 于 高 维 的 情况 。 
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方差 分 析 的 方法 本 书 前 面 其 实 已 经 多 次 使 用 过 了 ， 本 章 我 们 将 更 加 系统 、 更 加 深入 地 探讨 
与 此 相关 的 话题 。 初 听 名 字 ， 人 们 很 容易 误 以 为 这 是 要 对 总 体 方差 进行 分 析 的 意思 ， 然 而 方差 
分 析 却 是 对 多 个 总 体 均值 是 否 相 等 进行 分 析 的 统计 方法 。 更 深层 次 地 讲 ， 方 差分 析 所 探讨 的 其 
实 是 分 类 型 自 变量 对 数值 型 因 变量 的 作用 ， 这 一 点 读者 也 应 该 在 学 习 过 程 中 注意 体会 。 


12.1 方差 分 析 的 基本 概念 


事实 上 ， 本 书 前 面 已 经 介绍 了 很 多 检验 多 个 总 体 均 值 是 否 相 等 的 方法 。 例 如 ， 参 数 检验 中 
的 t 检 验 就 可 以 用 来 检验 双 总 体 均 值 是 否 相 等 ,还 有 非 参 数 检验 中 的 威 尔 科 克 森 符号 秩 检验 ， 以 
及 秩 和 检验 。 当 然 它们 的 适用 情况 并 不 完全 相同 。 在 已 学 过 的 众多 检验 方法 中 ， 与 方差 分 析 最 
相像 的 是 非 参 数 检 验方 法 中 的 克 鲁 斯 卡尔 - 沃 利 斯 检验 ， 它 们 都 被 用 来 对 多 总 体 〈>3) 进行 均 
值 检 验 。 方 差分 析 (ANOVA，Analysis of Variance) 是 通过 检验 各 总 体 均 值 是 否 相 等 来 判断 分 
类 型 变量 对 数值 因 变 量 是 否 有 显著 影响 的 统计 检验 方法 。 方 差分 析 最 初 是 由 费 希 尔 提 出 的 ， 因 
此 又 称 F 检 验 。 


下 面 以 克 鲁 斯 卡尔 - 沃 利 斯 检验 中 曾经 用 过 的 大 鼠 实 验 为 例 来 说 明 方 差分 析 的 有 关 概念 以 
及 方差 分 析 所 要 研究 的 问题 。 在 研究 煤矿 粉尘 作业 环境 对 人 尘肺 影响 的 实验 中 ， 我 们 将 18 只 大 鼠 
随机 分 到 甲 、 乙 和 两 3 个 组 ， 每 组 6 只 ， 分 别 在 地 面 办 公 楼 、 煤 炭 仓 库 和 矿井 下 染 尘 ，12 周 后 测 
量 大 鼠 全 肺 湿 重 ， 然 后 尝试 研究 不 同 环境 下 大 鼠 全 肺 湿 重 有 无 显著 差别 。 要 分 析 不 同 环境 下 大 
鼠 全 肺 湿 重 有 无 显著 差别 ， 实 际 上 也 是 判断 “环境 ”( 类 别 数据 ) 对 “全 肺 湿 重 ”( 数 值 数据 ) 
是 否 有 显著 影响 ， 做 出 这 种 判断 最 终 被 归结 为 检验 这 3 种 环境 大 鼠 的 全 肺 湿 重 均值 是 否 相 等 。 
如 果 它 们 的 均值 〈 在 统计 上 ) 相等 ， 就 意味 着 环境 对 大 鼠 全 肺 湿 重 没有 显著 影响 ， 否 则 就 意味 
着 环境 对 大 鼠 全 肺 湿 重 是 有 显著 影响 的 。 


方差 分 析 中 ， 将 要 检验 的 对 象 称 为 因素 或 因子 ， 因 素 的 不 同 表现 称 为 水 平 或 处 理 。 每 个 因 
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子 水 平 下 得 到 的 样本 数据 称 为 观察 值 。 例 如 ， 在 大 鼠 实 验 中 要 分 析 不 同 环境 对 大 鼠 全 肺 湿 重 是 
ea he min ri 煤炭 仓库 
和 矿井 下 是 这 一 因子 的 具体 表现 ， 也 就 是 水 平 (或 处 理 )。 每 个 环境 下 得 到 的 样本 数据 (大 鼠 全 
肺 湿 重 ) 称 为 观察 值 。 


在 大 鼠 实 验 中 ， 由 于 只 涉及 环境 这 一 个 因素 ， 因 此 称 为 单 因素 三 处 理 的 实验 。 因 素 的 每 个 
处 理 都 可 以 看 成 是 一 个 总 体 ， 如 地 面 办 公 楼 、 煤 炭 仓 库 和 矿井 下 可 以 看 成 是 3 个 总 体 。 只 有 一 
个 因素 的 方差 分 析 也 被 称 为 是 “ 单 因素 方差 分 析 ”。 在 单 因素 方差 分 析 中 ,涉及 两 个 变量 : 一 个 
ed nn 要 研究 不 同 环境 对 大 鼠 全 肺 
湿 重 是 否 有 影响 ， 这 里 的 不 同 环境 就 是 自 变量 ， 而 且 它 是 一 个 类 型 变量 。 大 鼠 全 肺 湿 重 是 因 变 
量 ， 它 是 一 个 数值 变量 。 

方差 分 析 之 所 以 被 称 为 是 方差 分 析 ， 那 是 因为 虽然 我 们 感 兴趣 的 指标 是 均值 ， 但 在 判断 均 
值 之 间 是 否 有 差异 时 需要 借助 于 方差 。 ea ee i et mite et pt de 
均值 是 否 相 等 ， 进 而 分 析 自 变量 对 因 变 量 是 否 有 显著 影响 。 为 了 对 误差 进行 分 析 ， 我 们 首先 要 
明确 这 些 数 据 误差 是 从 何 而 来 的 。 从 前 面 给 et tr 3 组 数据 各 不 相同 ， 但 这 
种 差异 〈 总 变异 ) 可 以 分 解 成 两 部 分 。 


组 间 变 异 : 甲 、 乙 、 丙 3 个 组 大 鼠 全 肺 湿 重 各 不 相等 (此 变异 反映 了 处 理 因 素 的 作用 ， 
以 及 随机 误差 的 作用 )。 

组 内 变异 : 各 组 内 部 大 鼠 的 全 肺 湿 重 各 不 相等 (此 变异 主要 反映 的 是 随机 误差 的 作用 )。 
反映 全 体 数据 误差 大 小 的 平方 和 称 为 总 变异 ， es 


88 = yy -xX)” = yy 一 2Xij 交 十 到 ) = 9 5 到 


i=1 j=1 i=1 j=1 i=1 j=1 



























































es: 2 
1 
= 而 
i=1 j=1 


由 于 所 接受 的 处 理 因素 不 同 而 致 各 组 间 大 小 不 等 的 变异 称 为 组 间 变 异 ， 用 组 间 离 均 差 平方 
和 :534 来 表示 : 
可 见 , 各 组 平均 数 玩 之 间 相差 越 大 , 它们 与 总 平均 数 员 的 差 值 就 越 大 ,SS, 越 大 , 反之 , 554 越 小 。 
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反映 同一 处 理 组 内 部 实验 数据 大 小 不 等 的 变异 称 为 组 内 变异 , 用 组 内 离 均 差 平方 和 SSg 来 表 
示 : 
g nm 
SSE 一 > > Cy = 六 
i=1 j=1 

而 且 3 个 变异 之 间 还 有 如 下 关系 : 

SSr = $54 十 45 
以 及 

dfr = dfa + dfe 
其 中 , dfr =N-1、 dfh=g-1、 dfs=N-—g。 

离 均 差 平方 和 只 能 反映 变异 的 绝对 大 小 。 变 异 程度 除 与 离 均 差 平 方 和 的 大 小 有 关外 ， 还 与 
其 自由 度 有 关 ， 由 于 各 部 分 自由 度 不 相等 ， 因 此 各 部 分 离 均 差 平方 和 不 能 直接 比较 ， 须 除 以 相 
应 的 自由 度 ， 该 比值 称 均 方 差 ， 均 方差 的 大 小 就 反映 了 各 部 分 变异 的 平均 大 小 。 

_ 35gE 
safe 

如 果 不 同 环境 对 大 鼠 全 肺 湿 重 没有 影响 ， 那 么 在 组 间 误 差 中 就 将 只 包含 随机 误差 ， 而 没有 
系统 误差 。 这 时 ， 组 间 误 差 与 组 内 误差 经 过 平均 后 的 数值 ( 即 均 方差 ) 就 应 该 很 接近 ， 它 们 的 
比值 就 会 接近 1; 否则 ， 若 不 同 环境 对 大 鼠 全 肺 湿 重 在 统计 上 有 显著 影响 ， 那 么 组 间 误 差 中 除 
了 包含 随机 误差 ， 还 会 包含 系统 误差 ， 这 时 组 间 均 方差 就 会 大 于 组 内 均 方差 ， 它 们 之 比 就 会 大 
于 1。 当 这 个 比值 大 到 某 种 程度 时 ， 我 们 就 认为 因子 的 不 同 水 平 之 间 存 在 显著 差异 ， 即 自 变 量 
对 因 变 量 有 显著 影响 。F 统 计量 就 定义 为 M54 与 MSg 之 比 ， 即 : 

_ MSa 
= Mss 

可 见 ， 方 差分 析 的 基本 思想 就 是 根据 实验 设计 的 类 型 ， 将 全 部 测量 值 总 的 变异 分 解 成 两 个 
或 多 个 部 分 ， 每 个 部 分 的 变异 可 由 某 个 因素 的 作用 (或 某 几 个 因素 的 作用 〉 加 以 解释 ， 通 过 比 
较 各 部 分 的 均 方 与 随机 误差 项 均 方 的 大 小 ， 借 助 F 分 布 来 推断 各 研究 因素 对 实验 结果 有 无 影响 。 

在 进行 方差 分 析 之 前 ， 应 当 保 证 模型 满足 如 下 3 个 基本 假定 。 

。 每 个 总 体 都 服从 正 态 分 布 ， 即 对 于 因素 的 每 个 水 平 ， 其 观察 值 是 来 自 正 态 总 体 的 随机 样 

本 。 
e 各 观测 值 相 互 独立 。 
e 各 组 总 体 方差 相等 ， 即 方差 齐 性 。 换 言 之 ， 各 组 观察 数据 都 是 从 具有 相同 方差 的 正 态 总 


5 
MSa -a afs 
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体 中 抽取 的 。 

在 上 述 假定 成 立 的 前 提 下 ， 要 分 析 自 变量 对 因 变 量 是 否 有 影响 ， 实 际 上 就 是 要 检验 自 变量 
的 各 个 水 平 〈 总 体 ) 的 均值 是 否 相等 。 比 如 ， 判 断 不 同 环境 对 大 鼠 全 肺 湿 重 是 否 有 显著 影响 ， 
实际 上 也 就 是 检验 具有 同方 差 的 3 个 正 态 总 体 的 均值 (大 鼠 全 肺 湿 重 的 均值 ) 是 否 相等 。 判 断 
的 方法 是 用 样本 数据 对 总 体 均 值 进行 检验 。 在 我 们 讨论 的 例子 中 ， 如 果 3 个 总 体 的 均值 相等 ， 
可 以 期 望 3 个 样本 的 均值 也 会 很 接近 。 而 且 样 本 均值 越 接近 , 总 体 均值 相等 的 证 据 也 就 越 充分 ; 
反之 ， 样 本 均值 不 同 ， 推 断 总 体 均值 不 相等 的 证 据 就 越 充 分 。 


如 果 原 假设 Ho: jw = 请 = Us 为 真 ， 即 3 个 不 同 的 环境 下 大 鼠 全 肺 湿 重 的 均值 相等 ， 就 意味 
着 每 个 样本 都 来 自 均值 为 由 方差 为 o? 的 同一 个 正 态 分 布 的 总 体 。 从 样本 均值 的 抽样 分 布 可 知 ， 
来 自 正 态 总 体 的 一 个 简单 随机 样本 的 均值 x 服从 均值 为 4、\ 方差 为 o?/n 的 正 态 分 布 。 如 果 j1、pz 和 
Ls 完全 不 同 ， 则 意味 着 3 个 样本 分 别 来 自 均值 不 同 的 3 个 正 态 总 体 。 此 时 ，3 个 样本 均值 的 分 
布 就 呈现 出 如 图 12-1 所 示 的 情形 。 





Hi Hz 3 
图 12-1 3 个 抽样 来 自 3 个 均值 不 同 的 总 体 


12.2 ” 单 因素 方差 分 析 方 法 


根据 分 类 变量 的 多 少 ， 方 差分 析 可 以 分 为 单 因 素 方差 分 析 和 双 因 素 方差 分 析 。 本 节 介 绍 与 
单 因素 方差 分 析 有 关 的 话题 。 
12.2.1 基本 原理 


可 以 证 明 ， 当 若干 个 样本 都 来 自 均 值 相同 的 正 态 总 体 时 ， 将 有 : 
.9.9 .99 
Xr "WD 
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如 果 F > 及 (7 一 1,n 一 7) 则 拒绝 原 假设 ， 认 为 因素 的 几 个 水 平 有 显著 差异 ， 反 之 “接受 ” 原 假 
设 。 当 然 ， 也 可 以 通过 检验 的 P 值 来 决定 是 接受 还 是 拒绝 原 假设 。 


12.2.2 分 析 步 又 

现在 就 以 大 鼠 实验 为 例 来 说 明 进 行 单 因 素 方差 分 析 的 基本 步 又。 首先 提出 原 假 设 。 由 于 原 
假设 所 描述 的 是 按照 自 变量 取 值 分 成 的 类 别 中 ， 因 变量 的 均值 相等 ， 所 以 提出 如 下 原 假设 和 备 
择 假设 。 

® Ho: Hi = Hz = Hae 

。H: 原 假设 不 成 立 。 
为 了 对 原 假设 进行 检验 ， 接 下 来 计算 F 统 计量 。 因 为 : 


ni n2 ns 
> Xj = 22.9， 广 Xj = 25.4, > Xij = 28.4 
2 了 j 


mi 


9 
76.72 
> 如 =333.39,， C= 一 8-=326.8272 


所 以 有 : 


SS7 = 333.39 一 326.8272 = 6.5628 


22.9” 25.42 28.42 


$54 = 6 中 6 一 326.8272 = 2.5278 











SSE = SSr — $$4 = 6.5628 — 2.5278 = 4.0350 
将 以 上 计算 结果 代入 方差 分 析 表 ， 并 求 出 相应 的 MS 及 F 值 ， 结 果 如 表 12-1 所 示 。 
表 12-1 方差 分 析 表 





其 中 5% 显 著 水 平 下 的 临界 值 和 P 值 可 以 通过 下 面 的 代码 获得 。 


>'igf (0.05 » 2, 15, leower. tail = FALSE) 
[1] .38.68239 | 
> bf(4.698/ 2 NLS Ower tail SFALSE) 
[1] 0.02604922 


R 中 的 函数 aov() 提 供 了 方差 分 析 的 计算 与 检验 ， 示 例 代码 如 下 。 从 输出 结果 中 可 知 
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已 =4.698 > Fo0s(2,15)， 故 P < 0.05， 按 wx = 0.05 的 显著 水 平 拒绝 可， 接受 下 ， 差 别 有 统 计 学 
意义 ， 可 认为 不 同 粉尘 环境 影响 大 鼠 的 全 肺 湿 重 。 
> XS CAs dy ad dat 几 W， 
十 不 Medr da de2, Mr er 
= SO 6 i LA A 二 二 人 
> A <- factor(rep(1:3, each=6)) 
> my.data <- data,frame'(X, A) 
> my.aov <- aov(X~A, data = my.data) 
> summary (my.aov) 

Df\'Sum Sq Mean Sg FE value| Pr(>F) 
A 2 0 .20 L264 4. 692 0026 去 
Residuals, -15 “4.035 “O269 


Signi£ "Codest OT 0 OO NN Omar Oa QO 


另外， 还 需 说 明 的 是 ， 当 g = 2 时 ， 方 差分 析 的 结果 与 两 样本 均值 比较 的 t 检 验 等 价 。 


12.2.3 ”强度 测量 


在 不 同 环境 对 大 上 鼠 全 肺 湿 重 影响 的 例子 中 ， 方 差分 析 的 结果 表明 不 同 环境 下 大 鼠 全 肺 湿 重 
的 均值 之 间 确 有 显著 差异 ， 这 就 表明 环境 〈 自 变量 ) 与 大 鼠 全 肺 湿 重 〈 因 变量 ) 之 间 的 关系 是 
显著 的 。 那 么 这 种 关系 的 强度 该 如 何 定量 地 评判 呢 ? 


回想 一 下 在 线性 回归 中 曾经 使 用 过 的 判断 系数 R2?， 它 是 一 个 回归 直线 与 样本 观察 值 拟 合 优 
度 的 数量 指标 ，R? 越 大 则 拟 合 优 度 就 越 好 ; 相反 ， 若 R? 越 小 ， 则 拟 合 优 度 就 越 差 。 线 性 回归 中 
的 总 离 差 平 方 和 可 以 被 分 解 为 两 部 分 ， 即 残 差 平方 和 及 回归 平方 和 。 而 判断 系数 R2 就 定义 为 回 
归 平 方 和 与 总 离 差 平方 和 之 比 。 这 是 因为 在 总 离 差 平方 和 中 ， 如 果 回 归 平 方 和 比例 越 大 ， 残 差 
平方 和 所 占 比例 就 越 小 ， 表 示 回 归 直 线 与 样本 点 拟 合 得 越 好 ;反之 ， 也 就 表明 拟 合 得 不 好 。 


总 离 均 差 平方 和 557 同 样 可 以 被 分 解 为 组 间 离 均 差 平方 和 S54 与 组 内 离 均 差 平方 和 SSE 两 部 
分 。 当 组 间 离 均 差 平方 和 比 组 内 离 均 差 平方 和 大 ， 而 且 大 到 一 定 程 度 时 ， 就 意味 着 自 变量 与 因 
变量 之 间 的 关系 显著 大 得 越 多 ， 表 明 它 们 之 间 的 关系 就 越 强 ， 反 之， 当 组 间 离 均 差 平方 和 比 组 
内 离 均 差 平 方 和 小 时 ， 就 意味 着 自 变 量 与 因 变量 之 间 的 关系 不 显著 ， 小 得 越 多 ， 也 就 表明 它们 
之 间 的 关系 越 弱 。 线 性 回归 中 的 回归 平方 和 就 对 应 于 这 里 的 组 间 离 均 差 平方 和 $S4， 残 差 平方 和 
就 对 应 于 这 里 的 组 内 离 均 差 平方 和 SSs。 借 鉴 线性 回归 中 的 做 法 , 便 可 以 用 组 间 离 均 差 平方 和 3534 
与 总 离 差 平方 和 Sr 之 比 来 作为 判断 系数 R2， 即 : 











于 是 ，R? 即 可 用 于 测量 自 变量 与 因 变 量 之 间 的 关系 强度 。 例 如 ， 在 大 鼠 全 肺 湿 重 的 例子 中 
可 以 算得 : 
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， 2.528 
R* 三 6563 ~ 38.51% 


这 个 结果 表明 环境 ( 自 变 量 ) 对 大 和 鼠 全 上 肺 湿 重 ( 因 变 量 的 影响 效应 占 总 效应 的 38.51%， 而 残 
差 效 应 则 占 61.49%。 换 句 话说 , 环境 对 大 鼠 全 肺 湿 重 差异 解释 的 比例 为 8.51%, 而 其 他 因素 ( 残 
差 变 量 ) 所 解释 的 比例 为 61.49%。 尽 管 R? 并 不 高 ,但 环境 对 于 大 和 鼠 全 肺 湿 重 的 影响 已 经 达到 了 
统计 上 显著 的 程度 。 


12.3” 双 因素 方差 分 析 方 法 


单 因素 方差 分 析 仅 考虑 了 一 个 分 类 型 自 变量 对 数值 型 因 变量 的 影响 。 但 在 实际 应 用 中 ， 考 
虑 多 个 因素 对 实验 结果 影响 的 情况 也 是 存在 的 。 例 如 ， 在 分 析 影 响 某 种 产品 销量 的 因素 时 ， 就 
通常 需要 考虑 品牌 、 价 格 和 区 域 等 多 个 因素 的 影响 。 特 别 地 ， 如 果 方 差分 析 中 涉及 两 个 分 类 型 
自 变量 时 ， 通 常 将 其 称 为 双 因素 方差 分 析 。 


12.3.1 无 交互 作用 的 分 析 


在 双 因 素 方差 分 析 中 ， 被 纳入 考虑 范畴 的 两 个 影响 因素 对 于 因 变 量 的 作用 是 彼此 独立 的 ， 
这 时 的 双 因素 方差 分 析 称 为 无 交互 作用 的 双 因 素 方差 分 析 ， 或 称 为 无 重复 双 因 素 分 析 。 


在 问题 研究 过 程 中 ， 经 过 一 定 分 析 后 ， 认 定 两 个 影响 因素 均 各 自 独立 地 作用 于 因 变 量 ， 这 
客观 上 也 属于 是 一 种 被 动 的 无 重复 双 因 素 情况 。 除 此 之 外 ， 应 用 无 交互 作用 方差 分 析 的 另外 一 
种 情况 则 是 在 实验 设计 时 主动 地 对 实验 对 象 进行 配伍 , 即 运用 随机 区 组 设计 (Randomized Block 
Design) 方案 ， 它 是 配对 设计 的 扩展 。 


随机 区 组 设计 的 具体 做 法 是 : 先 按 影响 实验 结果 的 非 处 理 因素 将 受 试 对 象 配 成 区 组 ， 再 将 
各 区 组 内 的 受 试 对 象 随机 分 配 到 不 同 的 处 理 组 ， 各 处 理 组 分 别 接受 不 同 的 处 理 ， 实 验 结束 后 比 
较 各 组 均值 之 间 差 别 有 无 统计 学 意义 ， 以 推断 处 理 因素 的 效应 。 


这 种 设计 的 特点 如 下 : 首先 ， 该 设计 包含 两 个 因素 ， 一 个 是 区 组 因素 ， 一 个 是 处 理 因 素 ; 
其 次 ， 各 区 组 及 处 理 组 的 受 试 对 象 数 相等 ， 各 处 理 组 的 受 试 对 象 的 特性 较 均衡 ， 可 减少 实验 误 
差 ， 提 高 假设 检验 的 效率 。 

为 了 研究 甲 、 乙 、 丙 3 种 营养 素 对 小 白鼠 体重 增加 的 影响 ， 特 开展 相关 实验 。 现 在 已 知 窜 
别 为 影响 因素 。 拟 用 6 窝 小 白鼠 ， 每 窝 3 只 ， 随 机 地 安排 喂养 围 、 乙 、 两 3 种 营养 素 之 一 种 ， 一 
段 时 间 后 观察 并 记录 小 白鼠 体重 增加 情况 〈 单 位 : 克 )， 数 据 如 表 12-2 所 示 。 请 问 不 同 营养 素 
之 间 小 白鼠 的 体重 增加 是 否 不 同 ? 不 同 窝 别 之 间 小 白鼠 的 体重 增加 是 否 不 同 ? 
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表 12-2 3 种 营养 素 喂养 小 白鼠 所 增 体重 














双 因 素 方差 分 析 与 单 因素 方差 分 析 的 基本 原理 相同 ， 仍 然 是 从 反映 全 部 实验 数据 间 大 小 不 
等 状况 的 总 变异 开始 。 总 变异 用 总 离 差 平方 和 SS7 来 表示 ， 它 是 全 部 样本 观察 值 xjj 与 总 的 样本 
平均 值 间 差 的 平方 和 ， 其 中 i = 1,2,…,r 及 j = 1,2,…,k， 即 : 


其 中 ， 





因为 随机 区 组 设计 可 以 将 区 组 间 变 异 从 完全 随机 设计 的 组 内 变异 中 分 离 出 来 以 反映 不 同 区 
组 对 结果 的 影响 ， 所 以 随机 区 组 设计 全 部 测量 值 总 的 变异 相应 地 就 分 成 了 3 部 分 。 


di (或 者 也 可 以 认为 是 列 因素 
所 导致 的 误差 平方 和 )， 通 常用 S554 来 表示 。 


和 —ZX)? = Dy 一 局 2? = Da(Su)- 
i=1 j=1 


其 次 是 表示 各 个 区 组 间 测 量 值 均 数 之 大 小 差异 的 区 块 组 间 变 异 或 者 也 可 以 认为 是 行 因素 
所 导致 的 误差 平方 和 )， 通 常用 SSg 来 表示 。 


sy yy -> (5 —2) -> Er 


i=1 人 








最 后 是 除了 行 因素 和 列 因素 之 外 剩余 因素 影响 产生 的 误差 平方 和 ， 称 为 随机 误差 平方 和 ， 
通常 用 SSs 来 表示 。 
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本 四 
SSE 一 >. > = Xi EE Xj -xz)” 


i=1 j=1 
而 且 各 种 变异 之 间 还 有 如 下 关系 : 
SSr = SS4 十 SS 十 SS 
以 及 
dfr = dfa + dfe + dfs 
其 中 , dfr =kxr-1、 dfs=k-1、 dfy=r—1, dfse=(k-1)(r-1), 
为 了 构造 检验 统计 量 ， 还 需要 计算 下 列 几 个 均 方差 ， 首 先是 列 因 素 的 均 方差 ， 记 为 M54， 








即 : 
_ S54 
Ma = 
其 次 是 行 因素 的 均 方差 ， 记 为 MSsp， 即 : 
Wi 
Be 
以 及 随机 误差 项 的 均 方差 ， 记 为 MSE， 即 : 
MS = SSE 
“==D 
与 单 因素 方差 分 析 类 似 ， 在 给 定 的 显著 水 平 下 ， 分 别 对 因素 4 和 因素 B 提 出 如 下 原 假设 。 
。 Ho1: Bi = Bz =… = pB.=0( 因 素 4 对 因 变 量 无 显著 影响 ) 
® Ho2: i=]3 二 “二 Ys 二 0 (因素 B 对 因 变 量 无 显著 影响 ) 
SSE » S34 
G2 Ha- G2 Xr 


并 且 S$4 和 和 SSE 相互 独 立 ， 所 以 对 因素 4 可 以 构造 出 F 统 计量 : 


Fa a 1,(r—1)(k—1)] 


MSE 

同 理 ， 在 原 假设 Ho 的 条 件 下 ， 对 因素 B 也 可 以 得 到 类 似 的 F 统 计量 : 
F es FIk—1 1)(kE=.1 
hd A a 


下 面 就 以 不 同 营养 素 对 小 白鼠 体重 增加 影响 的 数据 为 例 ， 来 演示 一 下 进行 无 交互 作用 方差 
分 析 的 基本 步 又。 
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首先 对 于 处 理 因素 建立 如 下 原 假设 和 备 择 假设 : 
Hoi: Bi = Bz = Bs; Hii: By Bz, Bs 不 全 相等 
对 于 区 组 因素 建立 如 下 原 假设 和 备 择 假 设 : 
Ho = 2 = Ys Hrzi yr 不 全 相等 
为 了 对 原 假设 进行 检验 ， 接 下 来 计算 F 统 计量 。 因 为 : 


* r 


Dx = 9321 > Xi = 331, Dx = 360 


l 
k 


L 了 
k k 
Dx = 202, Dx = 166, 2 
J J , 
无 k k 
ag = Dx = 173, 训 
Vy 





所 以 有 : 
557 = 59572 一 56896.89 ~ 2675.1 


_ 321? + 331? 十 3602 
ca 6 
2022 + 166? 十 2182 + 1252 + 1732 十 1282 十 


S55 = 人 56896.89 = 2377.1 


S5r = 997 一 994 — S$g = 2675.1 一 136.8 — 2377.1 = 161.2 
将 以 上 计算 结果 代入 方差 分 析 表 ， 并 求 出 相应 的 MS 及 F 值 ， 结 果 如 表 12-3 所 示 。 


一 56896.89 ~ 136.8 


表 12-3 方差 分 析 表 











处 理 组 间 
区 块 组 间 
误差 






对 于 处 理 因素 而 言 ， 查 表 (或 使 用 下 述 R 代 码 ) 可 知 临界 值 fo.os(2,10) = 4.10， 又 因为 
二 4.24 > Foos(2,10)， 所 以 P 值 小 于 0.05。 按 gq = 0.05 的 显著 水 平 ， 应 该 选择 拒绝 原 假设 H,， 
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即 差 别 有 统 计 学 意义 ， 并 可 据 此 认为 不 同 营 养 素 对 小 白鼠 体重 增加 有 影响 。 
qf(005 m2 LO Tone tall Emo 
] .102821 
> pf(4.24, 2, 10, lower.tail = FALSE) 
[1] 0.04639703 
同 理 对 区 组 因素 而 言 ， 使 用 下 述 R 代 码 可 知 F = 29.49 > Fo01(5,10)， 因 此 P < 0.05。 按 
Q = 0.05 的 显著 水 平 ， 应 该 选择 拒绝 原 假设 H4,， 即 差别 有 统计 学 意义 ， 并 可 据 此 认为 不 同 窝 别 
对 小 白鼠 体重 增加 有 影响 。 
> qf(0.05, 5，10，JLIower.tail = FALSE) 
壕 ]32325835 
> pf(29.49, 5, 10, lower:tail = FALSE) 
[1] L17357Ter05 
在 R 中 可 以 使 用 非常 简洁 的 代码 来 完成 以 上 复杂 烦琐 的 运算 。 但 在 此 之 前 需要 先 用 下 面 的 
代码 来 将 数据 组 织 到 数据 框 中 。 
5 Wi C6 07 lr S03n SA Ta ln 
+ Aly dor 30 DG 作 入 达 相 本 专人 站 人 
> my.data <= data.framel(z 及 = gt 3 Be 3 1 8)) 
上 述 代码 用 到 了 函数 gl()， 它 的 作用 是 生成 因子 水 平 ， 其 调用 格式 如 下 。 其 中 参数 n 是 因子 水 平 
的 个 数 ，k 表 示 每 一 水 平 上 的 重复 次 数 ; length 表 示 总 观察 数 ， 可 通过 参数 labels 来 对 因子 的 不 
同 水 平添 加 标签 逻辑 值 ordered 指 示 是 否 先 对 各 个 水 平 进行 排序 。 
gl(n, k, length=n*k, labels=1l:n, ordered=FALSA) 


同样 使 用 函数 aov() 来 进行 双 因 素 方差 分 析 , 只 需要 将 第 1 个 参数 改 为 x~A 二 有 的 形式 即 可 ， 
示例 代码 如 下 。 可 见 输出 的 结果 与 我 们 之 前 手动 算得 之 结果 是 一 致 的 。 
> my.aov <- aov(x ~ A+B, data = my.data) 
> summary (my.aov) 
Df Sum Sq Mean Sq F Value Pr(>F) 
A 5 2377.1 .475.4 29.489 1-.126-05 *** 
B 2 68.4 4.242 0.0463 * 
Residuals 10 161.2 16.1 


Signif. codes: 0 xx: 0.001 \w*r 0.01 ‘x 0.05\. 0.1、 1 

随机 区 组 设计 的 优点 是 ， 从 组 内 变异 中 分 离 出 区 组 变异 从 而 减少 了 误差 均 方 ， 使 处 理 组 间 
的 F 值 更 容易 出 现 显著 性 ， 即 提高 了 统计 检验 效率 。 注 意 到 当 处 理 因 素 刚 好 等 于 2 时 ， 随 机 区 组 
设计 方差 分 析 与 配对 设计 的 t 检 验 等 价 。 
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Oe 


12.3.2 ”有 交互 作用 的 分 析 

与 无 交互 作用 的 双 因 素 方差 分 析 相 比 ， 有 交互 作用 的 情况 〈 或 称 为 可 重复 双 因素 分 析 ) 则 
会 显得 更 加 复杂 。 此 时 ， 被 纳入 考虑 的 两 个 影响 因素 除了 对 因 变 量 独自 发 挥 作用 以 外 ， 它 们 的 
搭配 也 会 对 因 变 量 产生 一 种 新 的 影响 。 

来 看 一 个 例子 。 ep nl 受 两 个 因素 的 影响 ， 其 一 为 是 否 添加 某 种 增 味 剂 ， 其 
二 是 乳 清 的 用 量 。 在 一 个 完全 随机 的 实验 中 ， 我 们 采用 4 种 乳 清 含量 和 是 否 添 加 增 味 剂 来 进行 
搭配 组 合 ， et ee dengan 
终结 果 如 表 12-4 所 示 。 

表 12-4 ”糕点 质量 及 影响 因素 数据 

屯 清 含量 































从 表 中 的 数据 分 布 特点 来 看 , 总 的 来 说 , 使 用 增 味 剂 对 于 最 终 品质 而 言 将 有 一 种 负面 效应 ， 
因为 加 料 组 的 平均 评分 低 于 未 添加 组 。 乳 清 的 用 量 对 于 最 终 品质 则 是 正 相关 的 ， 随 着 乳 清 用 量 
的 增加 ， 糕 点 品质 的 平均 评分 也 会 提高 。 除 此 之 外 ， 我 们 还 应 该 考察 一 下 对 于 其 中 一 种 因素 的 
不 同 处 理 对 另外 一 种 因素 所 产生 的 影响 。 不 妨 来 审视 一 下 每 种 处 理 组 合 所 得 之 平均 评分 的 情况 ， 
为 此 可 以 在 R 中 使 用 下 面 的 代码 来 进行 数据 组 织 。 


> pancakes <- data.frame (supp = rep(cl("no supplement",. "supplement"), 
局 each = 12), whey = rep(rep(c("0%", "10%", "20%"; "30%"), 

十 each = So Gality ="C(4.47 5 4 3 A067 dS dB, 

a AMANO dO I 6 4 I 0 1 3 3 Il 3 ra 96, 

士 Sr Sr dB Sad 6 35.3)) 


然后 将 每 种 处 理 组 合 中 3 批 糕点 的 平均 得 分 组 织 到 一 张 表 中 以 便 分 析 ， 遂 采用 下 述 代码 。 


> round(tapply (pancakes$gquality, pancakes[, 1:2], mean), 2) 
whey 
supp 0% 10% 20% “30% 
no supplement 4.4 4.63 4.70 4.80 
supplement Ba DO a 
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一 个 包含 有 更 丰富 信息 的 结果 出 现 了 。 我 们 原本 认为 就 总 体 情况 而 言 ， 增 味 剂 的 使 用 对 于 
糕点 品质 的 提升 是 不 利 的 ， 但 上 述 数据 却 显示 随 着 乳 清 用 量 的 增加 ， 增 味 剂 对 糕点 品质 的 负 作 
用 将 被 逐渐 削弱 。 特 别 地 ， 当 乳 清 用量 达 到 30% 时 ， 增 味 剂 的 使 用 甚至 对 糕点 品质 显示 出 了 提 
升 作用 。 或 者 从 另外 一 个 角度 来 看 ， 在 不 使 用 增 味 剂 时 ， 增 加 乳 清 用 量 对 于 糕点 品质 的 提升 作 
用 远 小 于 使 用 增 味 剂 时 的 提升 作用 。 这 其 实 就 表明 两 个 因素 是 相互 影响 的 ， 或 称 是 有 交互 作用 
的 。 





交互 作用 图 是 用 于 描述 多 因素 间 互 相 影响 的 一 种 非常 有 用 的 统计 图 形 。 图 中 的 纵 坐 标 用 于 
表示 响应 变量 ， 横 坐标 则 用 于 表示 其 中 某 个 因素 4〈 通 常 是 处 理 或 水 平 数量 最 多 的 一 个 因素 )。 
另外 一 个 因素 有 的 每 个 水 平 都 被 绘制 成 一 条 线 ， 用 于 表示 它们 与 因素 4 的 每 个 水 平 组 合 后 得 到 的 
响应 变量 值 。 在 交互 作用 图 中 ， 如 果 两 个 因素 之 间 没 有 交互 作用 ， 那 么 结果 将 是 两 条 不 相交 的 
折线 (或 是 分 段 平 行 线 )， 否 则 如 果 两 条 直线 有 交点 ， 就 表示 它们 之 间 是 存在 交互 作用 的 。 而 且 
两 条 折线 越 不 (分 段 ) 平行 ， 就 表示 它们 之 间 的 交互 作用 越 大 。 


在 R 中 可 以 使 用 stats 包 中 的 interaction.plot() 函 数 来 绘制 交互 作用 图 ， 示例 代码 如 下 。 交 互 
作用 图 的 绘制 结果 如 图 12-2 所 示 ， 易 见 两 个 因素 之 间 是 存在 较为 明显 的 交互 作用 的 。 


> library(stats) 
> interaction.plot (pancakes$whey; pancakes$suppy a 


5 
ww 
己 
i 


4 
所 


mean of pancakes$quality 
40 





0% 10% 20% 30% 
pancakes$whey 


图 12-2 两 个 因素 的 交互 作用 


与 之 前 一 样 ， 有 交互 作用 的 双 因 素 方差 分 析 仍然 从 反映 全 部 实验 数据 间 大 小 不 等 状况 的 总 
变异 开始 。 总 变异 用 总 离 差 平方 和 S57 来 表示 ， 它 是 全 部 样本 观察 值 Xxijx 与 总 的 样本 平均 值 间 差 
的 平方 和 ， 其 中 i = 1,2,:…,r、j = 1,2,…,s 及 k = 1,2,…,t， 即 : 


人 Ss t 
二 .7 2 (i 0) 
i=1 j=1 k=1 
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即 总 变异 被 分 成 了 4 部 分 。 其 中 ，55g 为 随机 误差 平方 和 ，5SS4 是 由 列 因 素 (或 因素 4) 所 导致 
的 误差 平方 和 。 


SS4=7t 》 (zi —z) 
2 
然后 是 由 行 因素 (或 因素 B)〉 所 导致 的 误差 平方 和 ， 用 SSg 来 表示 : 
$5 = st >》 (mi 一 到 


i=1 


以 及 交互 作用 的 误差 平方 和 ， 用 SS4xp 来 表示 : 


SSaxB 一 :YY Xi 一 条 不 x)” 


i=1 j=1 
在 给 定 的 显著 水 平 下 ， 分 别 对 因素 4、 因 素 B 以 及 二 者 的 交互 作用 A x B 提 出 如 下 原 假设 。 
® Ho 而 三 昼 三 “所 记 二 0 (因素 4 对 因 变 量 无 显著 影响 ) 
@ 万 02 : J 二 二 0 (因素 B 对 因 变 量 无 显著 影响 ) 
. Hos: 01 < 02 Se Gs =0 (因素 4 和 8 对 因 变 量 无 联合 作用 ) 


SSa/(r—-D) _ MS 
SSe/[rs(t—1)] MSg 
同 理 ， 在 原 假 设 Hos 的 条 件 下 有 : 

SSg/(s—1) MSs 
SSs/l[rs(t — 1)] ~ MSE 
此 外 ， 在 原 假设 Hos 的 条 件 下 有 : 

SSaxp/[(r —1)(s—1)] MSaxg 


Faxs = Se] = Me “Pl = DG= rss= 1 


在 R 中 可 以 借助 线性 回归 函数 Im() 来 执行 有 交互 的 双 因 素 方差 分 析 。 针 对 当前 讨论 的 糕点 品 
质 例 子 而 言 ， 可 以 建立 如 下 的 线性 回归 模型 用 以 描述 各 个 因素 对 响应 值 的 影响 〈 注 意 这 并 不 是 
第 11 章 中 介绍 的 多 元 线性 回归 模型 )。 

Vik = H+ oit bit Yi t+ ei 
此 人 处 Qj 表示 增 味 剂 对 总 体 均 值 的 影响 ， 其 中 i = 1,2， 即 分 别 对 应 使 用 或 者 不 使 用 增 味 剂 ，PBj; 表 
示 乳 清 用 量 对 总 体 均值 的 影响 ， 其 中 j = 1,2,3,4， 即 分 别 对 应 不 同 的 用 量 水 平 ， 第 3 个 下 标 
kk = 1,2,3, 表示 每 种 增 味 剂 与 乳 清 用 量 的 搭配 组 合 下 的 3 批 糕点 。 ai; 和 Bj 被 称 为 是 主要 影响 , yi 


太志 4 ~F[r —1,rs(t—1)] 


Fs = ~F[s—1,rs(t—1)] 
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是 交互 因素 ， 它 是 由 不 同 的 增 味 剂 与 乳 清 用 量 方案 所 构成 的 一 种 新 的 影响 。 例 如 ，yzs 就 表示 在 
采用 增 味 剂 的 同时 加 入 20% 的 乳 清 用 量 这 种 组 合 对 于 总 体 均 值 的 影响 。 


基于 上 述 分 析 ， 我 们 使 用 如 下 代码 来 执行 基于 线性 回归 模型 的 《有 交互 作用 的 ) 双 因素 方 
差分 析 。 注 意 到 表达 式 supp*whey 的 意思 就 是 既 包含 主要 影响 也 包含 交互 影响 ， 它 等 同 于 
supp+whey+supp:whey 这 样 的 写法 。 

站 DGB lm" Imaualiny SR wheyv data = Pancakes) 


> anova (pancakes .lm) 
Analysis of Variance Table 


Response: quality 

Df Sum Sq Mean Sq F value Pr (>F) 
supp 了 .DO 
Whey 3626812 2532304221742347 1.304e=09 4 
supp:whey 3 3.7246 1.24153 41.384 9.130e-08 *** 
Residuals 16 0.4800 0.03000 


Sgr Code Oo On nt Oth er 
如 果 采 用 之 前 (进行 无 交互 作用 方差 分 析 时 ) 的 写法 ; 上 述 代码 也 可 以 写成 下 面 这 种 形式 ， 
二 者 的 输出 是 完全 一 样 的 。 


> my.aov <- aov(quality ~ supp * whey data = pancakes) 
> summary (my.aov) 


最 后 来 分 析 一 下 输出 结果 的 意义 。 就 本 例 而 言 ,我 们 希望 进行 检验 的 3 个 原 假设 分 别 如 下 。 

。 Ho1: Bi = B= 0〈 增 味 剂 因素 对 因 变 量 无 影响 ) 

。 Hozs: yi = 二 yz =Y3=Y4 = 0( 乳 清 用 量 因素 对 因 变 量 无 影响 ) 

。 Hosa: 6ij = 0， 其 中 i = 1,2,，j = 1,2,3,4( 交 互 因素 对 因 变 量 无 影响 ) 

由 于 输出 结果 中 所 有 的 P 值 都 非常 小 ， 所 以 应 该 由 此 拒绝 上 述 3 个 原 假设 并 认为 主要 因素 
和 交互 因素 对 于 因 变 量 都 是 有 显著 影响 的 。 


12.4 ”多 重 比 较 


经 过 方差 分 析 ， 若 拒绝 了 原 假设 ， 只 能 说 明 多 个 总 体 的 平均 数 不 等 或 不 全 相等 。 若 要 得 到 
各 组 均值 间 更 详细 的 信息 ， 即 设法 获知 具体 哪些 均值 不 等 ， 就 应 在 方差 分 析 的 基础 上 进行 多 个 
样本 均值 的 两 两 比较 。 此 时 所 使 用 的 方法 就 称 为 多 重 比较 方法 (Multiple Comparison Procedure)， 
它 是 通过 对 总 体 均 值 之 间 的 配对 比较 来 进一步 检验 到 底 哪 些 均 值 之 间 存 有 差异 的 方法 。 
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12.4.1 多 重 t 检 验 

在 已 知 多 个 总 体 的 平均 数 不 等 或 不 全 相等 的 情况 下 ， 欲 继续 探知 到 底 哪些 均值 不 等 ， 最 容 
易 想到 的 办 法 就 是 从 我 们 前 面 学 过 的 t 检 验 出 发 ， 即 对 每 个 处 理 下 的 数据 均值 进行 两 两 比较 的 t 
检验 ， 或 称 多 重 t 检 验 。 

多 重 t 检 验方 法 使 用 方便 ,但 当 多 次 重复 使 用 t 检 验 时 会 增 大 犯 第 一 类 错误 的 概率 ， 从 而 使 得 
“有 显著 差异 ”的 结论 不 一 定 可 靠 。 例 如， 因子 4 有 3 个 处 理 ， 需 要 进行 3 次 显著 水 平 为 0.05 的 两 
两 比较 ， 所 以 每 次 比较 犯 第 一 类 错误 的 概率 就 是 0.05， 那 么 3 次 比较 同时 进行 ， 犯 第 一 类 错误 的 
总 概率 就 是 : , 

1—(1—a)"=1—0.953=0.1426 
这 样 一 来 ， 进 行 简 单 的 多 重 t 检 验 结果 就 很 有 可 能 出 差错 。 因 此 在 进行 较 多 次 重复 比较 时 ， 我们 
要 对 P 值 进行 调整 。 

统计 学 家 们 已 经 提出 了 多 种 对 P 值 进行 修正 的 方法 , 使 用 下 面 的 代码 可 以 看 到 R 中 己 经 实现 
了 几 种 修正 方法 。 注 意 其 中 的 “none” 表 示 的 是 不 进行 任何 修正 。 其 他 一 些 参数 的 释义 可 以 参 
见 表 12-5。 


> p.adjust.methods 
Fd lm "hochberg" "hommel" "bonferroni™ 
a i bs 2 GZ "nonen 


表 12-5 户 值 修正 方法 











UN 对 应 的 修正 方法 
“bonferroni” Bonferroni 
“holm” Holm (1979 
“hommel” Hommel(1988). 
“hochberg” Hochberg (1988) 
“BH"“fdr” Benjamini & Hochberge (1995) 
BY Benjamini & Yekutieli (2001) 


当 多 重 检验 次 数 较 多 时 ，Bonferroni 修正 方法 效果 较 好 。. 该 法 得 名 于 意大利 数学 家 卡 洛 。 艾 
米 里 奥 。 邦 弗 朗 尼 (Carlo Emilio Bonferroni )， 因 为 算法 推导 中 用 到 了 著名 的 邦 弗 朗 尼 不 等 式 。 
但 真正 将 这 一 思想 应 用 到 统计 学 ， 并 提出 基于 Bonferroni 修正 之 多 重 t 检 验 法 的 人 则 是 美国 统计 
学 家 奥利弗 。 吉 恩 。 邓 恩 (Olive Jean Dunn)。Bonferroni 修正 法 的 思路 也 很 简单 : 如 果 在 同一 
数据 集 上 同时 进行 ?个 独立 的 假设 检验 , 那么 用 于 每 一 假设 的 统计 显著 水 平 , 应 为 仅 检验 一 个 假 
设 时 显著 水 平 的 1/n， 即 ga' = a/n，n 是 多 重 t 检 验 的 次 数 。 


在 R 中 执行 均值 的 多 重 t 检 验 可 以 使 用 pairwise.t.test() 函 数 ， 它 返回 多 重 比 较 后 的 P 值 ， 其 调 
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用 格式 为 : 


pairwise.t.test(x, 9g, pb.adjust.method, paired=FALSE, 
alternative .= c(two.sided”, “jess”, “greater”), ...) 


其 中 ， 参 数 x 是 响应 向 量 ，g 是 因子 向 量 ，p.adjust.method 指示 所 要 采用 的 P 值 修正 方法 ， 默 认为 
Holm 修正 法 ， 吞 不想 进行 任何 调整 可 以 将 其 置 为 none。 此 外 ， 逻 辑 变量 paired 指示 是 否 要 进 
行 配 对 t 检 验 ，alternative 用 于 调整 检验 的 方向 。 


例如 ， 对 大 鼠 全 肺 湿 重 的 实验 ， 可 以 采用 如 下 代码 进行 基于 Bonferroni 修正 的 多 重 t 检 验 ， 
最 终 程序 返回 各 因子 水 平 下 两 两 检验 的 P 值 矩阵 。 


> pairwise.t.test(X, A, bp,adiust.method = "bonterroni") 








Pairwise comparisons using 七 tests with pooled SD 
datat' 人 ana A 


1 2 
.70.5 
3 0.024 0,347 


P value adqjustment method: bonferroni 


从 输出 结果 来 看 只 有 0.024<0.05, 遂 在 0.05 的 显著 水 平 下 拒绝 对 应 的 原 假设 , 认为 X% 和 Xs 之 
间 有 显著 差异 。 其 他 两 两 比较 的 差异 则 不 显著 。 有 兴趣 的 读者 还 可 以 尝试 不 采用 任何 修正 方法 ， 
并 观察 输出 结果 。 不 难 发 现 ， 经 过 修正 的 P 值 比 不 加 修正 的 结果 增 大 了 很 多 ， 这 在 一 定 程度 上 
克服 了 常规 多 重 t 检 验 增加 犯 第 一 类 错误 概率 的 缺点 。 


12.4.2 ”Dunnett 检 验 


18 世纪 是 欧洲 主要 国家 海上 活动 相当 频繁 的 一 段 时 期 ， 同 时 也 是 败 血 病 肆虐 的 一 段 时 期 。 
由 于 对 发 病原 因 认 识 不 清 , 人 们 一 直 无 法 找到 有 效 的 治疗 办 法 , 所 以 对 于 那些 远航 水 手 们 来 说 ， 
败 血 病 无 疑 是 一 种 令 人 谈 之 色 变 的 恐怖 疾病 。1747 年 , 时 任 英国 皇家 海军 外 科 医 生 的 詹姆斯 * 林 
德 (James Lind) 为 了 寻求 有 效 的 治疗 方案 ， 进行 了 人 类 历史 上 的 首次 临床 对 照 实验 。 林 德 在 一 
艘 远航 的 船只 上 找到 12 个 患 有 严重 败 血 病 的 海员 , 并 让 大 家 都 吃 相同 的 食物 , 唯一 不 同 的 药物 
是 当时 传说 可 以 治疗 败 血 病 的 药方 。 两 个 病人 每 天 吃 两 个 橘子 和 一 个 柠檬 ， 另 两 人 喝 苹 果汁， 
其 他 人 是 喝 稀 硫 酸 、 酸 醋 、 海 水 ， 或 是 一 些 其 他 当时 被 认为 对 败 血 病 有 效 的 药物 。6 天 之 后 ， 
只 有 吃 柑橘 水 果 的 两 人 好 转 ， 其 他 人 病情 依然 。 该 对 照 实验 不 仅 证 明 柑 橘 类 水 果 确 实 可 以 用 于 
治疗 败血症 ， 更 重要 的 是 它 的 实验 设计 思想 对 后 世 亦 具有 深远 影响 。 


在 许多 研究 与 实验 中 ， 研 究 者 们 为 了 便于 比较 ， 通 常 都 会 引入 对 照 〈 或 者 说 控制 ) 组 。 对 
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照 处 理 的 种 类 很 多 ， 但 通常 对 照 组 是 作为 一 个 标准 以 便 能 够 给 其 他 处 理 形成 参考 。 例 如 ， 考 虑 
到 安慰 剂 效 应 的 存在 〈 即 参与 实验 者 不 管 接受 任何 合理 的 治疗 都 倾向 于 产生 希望 看 到 的 响应 )， 
在 设计 这 类 实验 时 , 需要 像 对 待 接受 积极 治疗 的 受 试 者 一 样 , 随机 指定 一 些 参与 者 组 成 对 照 组 。 
只 有 当 对 照 组 与 接受 治疗 组 产生 明显 差距 时 ， 才 能 认定 实验 的 药物 或 者 疗法 显著 有 效 。 

在 包含 对 照 组 〈 或 者 说 控制 组 ) 的 实验 中 ， 研 究 者 们 想 知 道 接受 治疗 组 的 平均 效果 是 否 不 
同 于 控制 组 。 为 此 ， 加 拿 大 统计 学 家 查尔斯 。 邓 尼 特 (Charles Dunnett) 提出 了 一 种 与 对 照 组 进 
行 多 重 比较 的 方法 , 即 Dunnett 检验 法 。 当 进行 多 个 实验 组 与 一 个 对 照 组 均值 差别 的 多 重 比较 ， 
Dunnett 检验 统计 量 定 义 为 : 

|Xi — Xl 


MSE 伟 本 元 ) 


tp = 


其 中 ，Xi 一 表示 每 个 处 理 的 均值 与 对 照 组 均值 之 差 ，ni 是 每 个 处 理 的 样本 容量 ，n。 是 控制 组 
的 样本 容量 。MSE 是 残 差 均 方 (或 称 均 方 误差 )。 需 要 说 明 的 是 ， 对 比 可 以 是 单 尾 的 ， 也 可 是 双 
尾 的 。 


下 面 就 以 大 鼠 全 肺 湿 重 的 数据 为 例 来 说 明 Dunnett 检验 法 执行 的 步骤 。 由 于 原 题 是 要 研究 
煤矿 粉尘 作业 环境 对 尘肺 的 影响 ， 因 此 我 们 将 地 面 办 公 楼 环境 作为 对 照 组 。 首 先 提出 如 下 原 假 
设 和 备 择 假 设 。 

。 Hi: kr 大 Kc 比较 实验 组 与 对 照 组 总 体 均值 不 等 ) 

为 了 计算 检验 统计 量 ， 先 用 数据 框 将 相关 数据 组 织 起 来 ， 并 执行 方差 分 析 ， 由 此 可 以 得 到 均 方 
误差 ， 我 们 已 经 在 输出 结果 中 用 方 框 标 出 。 





> < C42 33, 3 4.3, 4.1,. 3.3, 

4 4.5, 44. 3.5, 4.2, 4.6, 4.2, 

+ $06, B64 4.5r 5 4 470) 

> group <-~ factor (rep (LETTERS [1， 31， each = ls 
> mice <- data， frame (x, Group) 

> mice.aov <- aov(x ~ group, data = micej 

> summary(miee.aovw) 







group ‘2 2 528 
Bestduale 2 ‘a 0 
oun oe | 0 和 001 oe | el | 
控制 组 均值 为 X = 3.817， 实验 组 的 均值 分 别 别 为 有 = pr = 4.733。 于 是 统计 量 为 : 
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13.817 — 4.233| 
Es 下 一 1.391 
0.269 x (s+5) 
|3.817 .=—4.733| 
ni | 


0.269 x (8 双 3) 


得 到 上 述 结果 之 后 ， 我 们 要 查询 相应 的 统计 表 得 到 临界 值 ， 然 后 将 检验 统计 量 与 临界 值 进 
行 比较 ， 从 而 决定 是 否 拒绝 原 假 设 。 或 者 在 R 中 使 用 glht() 函 数 来 完成 Dunnett 检验 。 使 用 该 函 
数 需要 引用 multcomp 包 ， 下面 给 出 示例 代码 。 从 输出 中 不 难 发 现 , 被 方 框 标注 出 来 的 检验 统计 
量 与 前 面 算得 的 结果 是 一 致 的 。 
> library (multcomp) 


> mice.Dunnett <- glht (mice.aov, linfct=mcp{(group = "Dunnett")) 
> stimmary (mice.Dunnett) 


Simultaneous Tests for General Linear Rypotheses 
Multiple Comparisons of Means: Dunnett Contrasts 
Fit: aov(formula = x ~ group, data = mice) 


Linear Hypotheses: 
Estimate ‘Std.. Error't vailue, Pr(>|t|) 
B~Al==0 .0.4167 0.2994 lb. 33M 0 308 


C -A ==40 0.9167 0.2994 (3.06 00147 * 


Signttr cos SO OI A 0 O00 
(Adjusted p values reported -- single-step method) 


上 述 结果 也 可 以 采用 图 形 化 手动 进行 显示 ， 示 例 代码 如 下 ， 如 图 12-3 所 示 为 绘图 结果 。 


95% family-wise confidence levej 
Dunnet's Method 





0.0 05 1.0 15 


Linear Function 
Mice Data 


图 12-3 图 形 化 展示 Dunnett 检验 结果 
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EN 


> windows (width=5, height=3,pointsize=10) 
> plot (mice.Dunnert, sub="Mice Datan) 
> mtext ("Dunnet's Method", side=3, line=0, 5) 


从 输出 结果 中 可 以 看 出 ，A 组 与 (组 比较 P < 0.05， 按 0.05 的 显著 水 平 拒绝 原 假设 ， 因 此 可 
以 认为 办 公 楼 中 大 鼠 全 肺 湿 重 小 于 矿井 下 大 鼠 全 肺 湿 重 ; 其 余 对 比 组 之 间 比 较 ，P > 0.05, 在 
0.05 的 显著 水 平 下 ， 无 法 拒绝 原 假设 。 最 终 可 认为 矿井 下 环境 会 造成 肺 功 能 损害 。 


12.4.3 ”Tukey 的 HSD 检 验 
多 重 比较 方法 的 一 个 主要 问题 是 如 何 控制 每 一 对 比较 的 错误 率 。 除 非 每 一 对 比较 的 错误 率 
a 都 很 小 ， 在 多 重 比较 中 存在 至 少 一 对 均值 不 等 的 概率 仍然 很 高 。 为 了 弥补 这 种 缺陷 ， 人 人 们 尝 
试 建立 了 另外 一 些 多 重 比较 方法 来 控制 不 同 的 错误 率 。 
美国 统计 学 家 约翰 。 图 基 (John Tukey) 在 1953 年 , 提出 了 利用 学 生化 极 差分 布 (Studentized 
Range Distribution) 的 方法 。 当 比较 两 个 以 上 的 样本 均值 时 ， 要 检验 最 大 与 最 小 样本 均值 ， 可 
以 使 用 如 下 的 统计 检验 量 : 
Ra 2 及 mi 
SpV2/m 
其 中 , ?是 每 个 样本 的 观察 值 个 数 ，sp 是 共同 的 总 体 标 准 差 组 合 估 计 。 这 个 检验 统计 量 与 两 个 均 
值 比较 时 的 检验 统计 量 十 分 相似 , 但 它 不 服从 t 分 布 。 原因 之 一 是 在 观察 到 最 大 与 最 小 样本 均值 
之 前 不 能 确定 到 底 要 比较 哪 两 个 样本 均值 。 上 述 统计 量 服从 学 生化 极 差 分 布 。 此 处 不 打算 讨论 
该 分 布 的 特性 ， 而 只 是 介绍 它 在 Tukey 多 重 比 较 中 的 应 用 。 
在 进行 Tukey 的 HSD 检验 法 时 ， 首 先 对 g 个 样本 均值 进行 排序 。 如 果 
[Xi —%|zW 
则 两 个 总 体 均值 4 和 wj 不 相等 ， 其 中 : 


W = qa(g,v)}V MSE/n 
其 中 MSE 是 自由 度 为 v 的 样本 组 内 均 方差 , qs(g,v) 是 比较 g 个 不 同 总 体 时 学 生化 极 差 的 上 侧 尾 部 
临界 值 ，n 是 每 个 样本 的 观察 值 个 数 。 


下 面 就 结合 大 鼠 全 肺 湿 重 的 例子 来 说 明 Tukey 的 HSD 检验 法 的 具体 执行 步骤 。 从 问题 描述 
中 ， 可 知 我 们 是 在 3 个 均值 间 进 行 两 两 比较 ， 即 g = 3。 另 外 ，MSE 的 自由 度 其 实 就 等 于 方差 分 
析 中 的 df ， 所 以 有 v = 15。 对 于 a = 0.05 的 显著 水 平 ， 可 以 查 表 求 得 临界 值 qa(g,v)， 或 在 R 中 
使 用 如 下 代码 获取 临界 值 
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于 是 ， 每 一 个 样本 均值 之 差 的 绝对 值 | 一 克 | 要 与 
W = qa(g,v)VMSE/n = 3.673 x V0.269/6 ~ 0.7777 
做 比较 。 注 意 ， 当 样本 容量 相同 时 我 们 并 不 需要 对 所 有 的 样本 均值 进行 两 两 比较 ， 因 为 所 有 的 
比较 都 应 用 相同 的 内 ， 所 以 采用 以 下 方法 将 更 简便 一 些 。 假 设 已 经 将 所 有 的 样本 均值 从 小 到 大 
进行 了 排序 。 那 么 就 计算 下 列 样本 均值 的 差 : 
Rg man 2 Pisin 


如 果 这 个 差 值 大 于 W， 就 可 断言 相应 的 总 体 均 值 相互 差异 显著 。 接 着 计算 下 列 样本 均值 的 
差 : 


X2nd_ max A Xist min 


并 把 结果 与 W 相 比较 。 然 后 继续 计算 下 列 差 值 并 与 W 相 比较 : 


Kara yas Es Kseain 
等 ， 直 至 发 现 要 么 所 有 的 样本 均值 与 Xist min 之 差 均 大 于 W (因此 相应 的 总 体 均值 不 相同 )， 要 
么 有 一 个 样本 均值 与 名 st_min 之 差 小 于 W。 如 果 情 况 是 后 者 的 话 ， 我 们 就 停止 与 对 st_min 做 比较 。 
针对 大 鼠 全 肺 湿 重 数据 ， 与 Xst min 对 比 的 结果 如 表 12-6 所 示 。 
表 12-6 差 值 比较 结果 
比较 让: 






注意 由 于 样本 均值 已 经 被 排序 ， 所 以 这 里 的 名 对 应 的 是 原来 的 和 %，Xz 对 应 的 是 原来 的 Xp， 
Xs 对 应 的 是 原来 的 Xc。 现 在 可 以 通过 下 面 的 图 表 来 概括 已经 得 到 的 结果 : 


二 这 污 


那些 用 下 画 线 连 起 来 的 总 体 ， 其 均值 与 多 的 差异 不 显著 。 注 意 样本 3 与 样本 1 的 差 值 大 于 W， 所 
以 没有 加 下 画 线 。 


类 似 地 , 再 与 第 二 小 的 样本 做 比较 ( 即 本 例 中 的 Xs。)， 对 这 种 情况 沿用 与 刚才 相同 的 方法 可 
得 : 


综 上 可 得 : 
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下 用 这 








其 中 那些 没有 被 下 画 线 连接 起 来 的 总 体 表 明 其 均值 存在 显著 差异 。 而 在 本 例 中 则 有 心 显 著 地 小 
于 Us， 所 以 总 体 Xa 和 总 体 Xc 之 间 是 存在 显著 差异 的 。 即 得 办 公 楼 中 大 鼠 全 肺 湿 重 小 于 矿井 下 大 
鼠 全 肺 湿 重 。 

在 R 中 执行 Tukey 的 HSD 检验 的 一 种 方法 是 使 用 TukeyHSD() 函 数 ， 下 面 给 出 示例 代码 。 
> posthoc <- TukeyHSD (mice.aov, ‘group') 
3 bosthoc ， 


Tukey multiple Crp of means 
95% family-wise confidence level 





Fit; aov(formula = x ~ group, data = mice) 


Sgroup 

TFT wr Upr D ao0j 
B-A 0.4166667 -0.3611300 1.194463 [0.3609714 
C-A 0.9166667 0.1388700 1.694463 
Cc-B 0.5000000 -0.2777967 1.277797 


前 面 讲 过 ， 两 个 总 体 均 值 K; 和 wj 不 相等 ， 会 有 : 














区 一 避 


2 一 站 > = ,UMSE /nS ,Be 
|X > du(9,U) /n qal(g v)< /Em 


于 是 首先 计算 检验 统计 量 : 
|4.233 — 3.817| 


WW 
ae /M026076 


14.733 一 3.817| 


论 = 
“es /36976 


14.733 — 4.233| 
= G0 


Ws 元 
‘ea /0269/6 
由 此 可 以 算得 相应 的 P 值 为 : 


> BEukey (1.96785, 3, 15, Jower,tail 
[1] 0.3699654 

> ptukey (4.32925, 3, 15, lower.tail = ) 
[1] 0.02038061 

> ptukey (2. 36140, 3, 2 oo tail = F) 
111 02487027 


在 0.05 的 显著 水 平 下 , 只 有 0.02038<0.05, 所 以 拒绝 原 假设 , 同样 得 出 结论 总 体 和 和 总 体 Xc 


~ 1.96785 


~ 4.32925 


| 


FP) 
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之 间 是 存在 显著 差异 的 。 

在 R 中 执行 Tukey 的 HSD 检验 的 另 一 种 方法 是 使 用 HSD,testO) 函 数 , 它 位 于 agricolae 包 中 ， 
使 用 前 需 注意 先 引 用 该 包 。 函数 HSD.test() 的 执行 结果 与 我 们 最 初 的 分 析 步 又 是 更 为 相像 的 。 函 
数 HSD.test() 中 的 参数 console 用 以 指示 是 否 要 将 分 析 结 果 输 出 到 控制 台 上 ， 示 例 代码 如 下 。 


> library(agricolae) 
> comparison <- HSD.test(mice.aov, "group', console = T) 


Study; mice.aov ~ “group”" 

HSD “Test £0r XK 

Mean Square Error: (0.269 

group, means 

x std r Min Max 

A 3.816667 0.4490731 6 3.3 4.3 

B .233333]0s393276836 0359496 
区 


Cd V333300 ,6.131 3G 


alpha: 0 .05"7 DE RELors lS 
Critical Value of Studentized Range: |3.673378 


Honestly Significant Difference: 0.7777967 
Means with the same letter are not significantly different. 


Groups, Treatments and means 


a KC 和 
ab B 4.233 
b A 388T 


首先 注意 到 ， 上 述 输 出 中 被 方 框 标示 出 来 的 临界 值 与 我 们 前 面 算 得 的 结果 是 一 致 的 。 最 终 
判断 结果 是 采用 所 谓 的 “标记 字母 法 ”给 出 的 ， 该 方法 与 我 们 前 面 采用 的 下 画 线 标记 法 是 相通 
的 。 利 用 字母 标记 法 表示 的 多 重 比较 结果 ， 通 常 所 占 篇 幅 都 相对 较 小 ， 因 此 在 科技 文献 中 比较 
常见 。 

标记 字母 法 先 将 各 处 理 平均 数 由 大 到 小 自 上 而 下 排列 , 然后 在 最 大 平均 数 后 标记 字母 a, 并 
将 该 平均 数 与 以 下 各 平均 数 依次 相 比 ， 几 差异 不 显著 标记 同一 字母 4a， 注意 这 里 的 “差异 显著 ” 
是 指 同 临界 统计 量 W 相 比 而 言 的 。 直到 出 现 某 一 个 差异 显著 的 平均 数 , 则 用 字母 b 标 注 这 个 差异 
显著 的 新 平均 数 。 再 以 标 有 字母 b 的 平均 数 为 标准 ,与 上 方 比 它 大 的 各 个 平均 数 比 较 ， 凡 差异 不 
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显著 一 律 再 加 标 b，， 直 至 显著 为 止 ; 再 以 标记 有 字母 b 的 最 大 平均 数 为 标准 ， 与 下 面 各 未 标记 字 
母 的 平均 数 相 比 ， 凡 差异 不 显著 ， 则 继续 标记 字母 pb， 直至 某 一 个 与 其 差异 显著 的 平均 数 标记 
… 如 此 重复 下 去 ， 直 至 最 小 的 平均 数 被 标记 比较 完毕 为 止 。 


各 平均 数 间 凡 有 一 个 相同 字母 的 即 为 差异 不 显著 ， 凡 无 相同 字母 的 即 为 差异 显著 。 例 如 
在 上 述 输出 结果 中 ,样本 总 体 4 与 样本 总 体 C 所 标记 的 字母 不 相同 ， 就 表明 它们 二 者 之 间 是 存在 
显著 差异 的 ， 这 与 之 前 的 分 析 结 果 相 一 致 。 如 果 希 望 仅 输出 最 终 的 字母 标记 结果 ， 可 以 采用 如 
下 代码 。 
> princ(comparisonsgroups) 
trt means M 
L C 44.7133333 a 


2 BB 4.233333 ab 
3 A 3.816667 8 


通常 ，Tukey 的 HSD 检验 法 要 比 多 重 t 检 验 更 加 保守 〈 即 发 现 较 少 的 显著 差异 )。 之 所 以 这 
样 是 因为 ， 尽管 两 个 方法 都 有 实验 错误 率 ， Loar ba ad 此 
外 ，Tukey 方法 的 局 限 性 在 于 它 要 求 所 有 的 样本 均值 来 自 于 容量 相等 的 样本 。 对 于 样本 容 
别 不 大 的 情况 ， 也 有 学 者 提出 了 改进 建议 。 但 如 果 各 样本 容量 相差 较 大 ， 我 们 还 是 建议 考虑 采 
用 修正 的 多 重 上 检验 法 。 


























12.4.4 Newman-Keuls 检 验 


另外 一 种 常用 的 多 重 比较 方法 是 Newman-Keuls 检验 法 ， 有 时 也 称 为 Student- Newman- 
Keuls 检验 法 ， 或 简称 为 SNK 检验 法 。 它 适用 于 多 个 均值 两 两 之 间 的 全 面 比较 ， 在 功用 上 与 多 
重 t 检 验 类 似 。 更 重要 的 是 ，SNK 检验 法 是 对 Tukey 的 HSD 检验 法 的 一 种 修正 。 为 了 比较 这 两 
个 方法 ， 仍 然 以 大 鼠 全 肺 湿 重 的 例子 来 进行 演示 。 将 样本 均值 从 小 到 大 排列 ， 如 表 12-7 所 示 。 


表 12-7 样本 均值 排列 





Tukey 的 HSD 方法 的 学 生化 极 差 临 界 值 为 : 
qa(g,v) = qoos(3,15) ~ 3.673 
而 且 对 3 个 处 理 均值 的 所 有 两 两 比较 都 使 用 相同 的 q 值 。 
但 在 SNK 方法 中 ， 当 g 个 样本 均值 从 小 到 大 排列 时 ， 距 离 r 步 的 均值 间 的 临界 值 为 : 
及 = 到 的 加 VE 所 
在 当前 讨论 的 例子 中 ， 克 st max 与 局 st mn 相差 3 步 ， 要 比较 它们 应 该 使 用 : 
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Ws = qa(3,v)VMSE/n = qoos(3,15)V0.269/6 ~ 0.7777 
在 Tukey 的 HSD 方法 中 , 每 次 比较 时 所 选择 的 统计 量 都 是 相同 的 , 它们 都 是 以 所 有 样本 数量 为 
基础 算得 的 。 但 是 在 执行 比较 时 ， 实 际 参与 的 样本 数量 其 实 是 在 变化 的 。 所 以 这 里 的 步 长 可 以 
理解 为 当前 步骤 参与 比较 的 样本 数量 。 例 如 ，( 在 HSD 方法 中 ) 将 所 有 样本 均值 与 st min 比 较 
完 之 后 , 就 要 开始 将 所 有 样本 均值 与 Xnq_ min 来 进行 比较 ,此 时 参与 比较 的 样本 数量 就 减少 了 1 个 。 
就 当前 所 讨论 的 例子 而 言 ， 此 时 r = 2， 即 有 : 
W2 = qa(2,v)VMSE/n = qo.o0s(2,15)V0.269/6 ~ 0.6382 
就 大 鼠 全 肺 湿 重 的 例子 而 言 ， 我 们 所 需要 用 到 的 检验 统计 量 临界 值 就 只 有 这 两 个 。 
SNK 方法 在 决定 观察 到 的 样本 差异 显著 性 时 ， 需 要 依赖 这 两 个 样本 均值 间 排 序 的 步 宽 ， 它 
既 没 有 引入 实验 的 错误 率 ， 也 没有 每 次 比较 的 错误 率 。 此 外 错误 率 是 根据 均值 的 相应 步 宽 定义 
的 。 由 于 随 着 要 比较 均值 的 样本 数量 的 减 小 ， 临 界 值 Wi 也 在 减 小 ，SNK 方法 相对 于 HSD 方法 
来 说 没有 那么 保守 ,因此 一 般 能 发 现 较 多 的 显著 差异 , 这 是 由 于 HSD 方法 不 管 要 比较 的 均值 相 
差 几 步 都 使 用 最 大 的 W 值 。 不 难 发 现 , HSD 方法 所 使 用 的 W 临 界 值 其 实 是 Wj, 而 对 所 有 7 < g 均 
有 W, < W,。 
可 以 总 结 SNK 方法 执行 的 一 般 步 又 如 下 : 将 g 个 样本 从 小 到 大 排列 。 对 步 长 为 r 的 两 个 均 
量 总 与 已， 如 果 它 们 满足 
| 六 一 名 lzW 
就 认为 两 者 具有 显著 差异 ， 其 中 W = qa(7,v)VYMSE/n，n 为 每 个 样本 观察 值 个 数 。 特 别 地 ， 如 
果 参 与 比较 的 两 个 样本 容量 不 等 ， 则 有 : 


四 MSE/1 1 
W = qa(r,v) “全 + 元) 
这 里 的 nw 和 nw 是 相应 的 处 理 组 之 样本 容量 ,MSE 是 自由 度 为 v 的 样本 组 内 均 方差 。qa(r,v) 是 学 生 
化 极 差 的 临界 值 。 在 此 基础 上 的 比较 过 程 与 HSD 中 的 方法 类 似 ， 这 里 不 再 熬 述 。 
在 R 中 执行 SNK 检验 的 方法 是 使 用 SNK.test0 函 数 ， 该 函数 位 于 agricolae 包 中 ， 使 用 前 需 
注意 先 引 用 该 包 。 下 面 给 出 一 段 示 例 代码 。 易 见 其 中 被 方 框 标示 出 来 的 检验 统计 量 临 界 值 与 我 
们 前 面 算得 之 结果 是 一 致 的 。 


> library (agricolae) 
> comparison < SNR test (mice.dov, "group",. console ="T) 





study: mice.aov ~ “group" 


Student Newman Keuls Test 
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判断 结果 同样 是 采用 “标记 字母 法 ”给 出 的 ， 它 的 意义 前 面 已 经 详细 讨论 过 了 ， 这 里 不 再 
可 见 ， 最 终 我 们 得 到 了 与 前 面 分 析 相 一 致 的 结果 ， 即 可 以 认为 办 公 楼 中 大 鼠 全 肺 湿 重 小 
于 矿井 下 大 鼠 全 肺 湿 重 。 


同样 地 ， 我 们 也 可 以 为 每 对 比较 算出 一 个 P 值 ， 并 据 此 决定 是 否 接受 原 假设 。 此 时 需要 使 
用 的 检验 统计 量 为 : 


><I 


[Xi — 


| 





其 中 ，X; 一 总 表示 两 两 比较 的 处 理 组 均值 之 差 。 与 之 前 相同 ， MSE 是 均 方 误差 ，n; 和 nj 是 相应 
的 处 理 组 之 样本 容 


在 大 鼠 全 肺 湿 重 的 例子 中 ， 基 于 如 下 原 假设 和 备 择 假设 。 


。Ho: hu = J (对 比 组 总 体 均 信 相 等 ) 
® Hi: Hi (对 比 组 总 体 均值 不 等 ) 


便 可 计算 相应 的 统计 量 如 下 : 
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TE ealenhnaiphomomnaatpnownmitomaneeowmo oo 


”13.817 -4.233| 
0.269 /1 1 
“< 人 
(B817 —4733| a ,spy 

di = 二 = 三 仿 入 

NA 0.269 、 区 4 下 

FX*lEt 

14.233 一 4.733| 
02659 /1 1 
i 


A ~ 1.968 


QZ ~ 2.361 


并 在 R 中 使 用 下 列 代码 算得 相应 的 P 值 。 


> ptukey(1.968, 2, 15, lower.tail = F) 

[1] 0.1843417 

> ptukey(4.329; 3, 15, lower.tail = F) 

[LEO 20 和 3/ 

> ptukey (2.361, 2, 15, lower.tail = F) 

{LT]2 .0.4157334 

从 输出 结果 来 看 ， 在 0.05 的 显著 水 平 下 ,只 有 0.020388<0.05， 所 以 拒绝 相应 的 原 假设 ， 同 

样 得 出 结论 总 体 X4 和 总 体 Xc 之 间 是 存在 显著 差异 的 。 


12.5 方差 齐 性 的 检验 方法 


方差 分 析 的 一 个 前 提 条 件 是 相互 比较 的 各 样本 的 总 体 方差 相等 ， 即 具有 方差 齐 性 ， 这 就 需 
要 在 做 方差 分 析 之 前 ， 先 对 数据 的 方差 齐 性 进行 检验 ， 特 别 是 在 样本 方差 相差 悬殊 时 ， 应 注意 
这 个 问题 。 本 节 介 绍 两 种 多 样本 方差 齐 性 的 检验 方法 : Bartlett 检验 法 和 Levene 检验 法 。 


12.5.1 Bartlett 检 验 法 


对 于 正 态 分 布 总 体 ， 可 采用 Bartlett 法 来 检验 齐 方差 性 , 该 检验 法 得 名 于 英国 统计 学 家 英里 
斯 。 史 带 文 森 * 巴特 利 特 (Maurice Stevenson Bartlett)。 假 设 有 一 个 给 定 的 随机 变量 Y， 它 的 一 
个 容量 为 N 的 样本 被 分 成 了 g 个 子 组 ，ni 是 其 中 第 i 个 子 组 的 容量 ，s? 是 第 i 个 子 组 的 方差 。 那 么 
相应 的 统计 量 定 义 为 : 


1 + GD = 


其 中 ，sp 是 合并 方差 ， 它 定义 为 子 组 方差 的 加 权 平 均 ， 即 : 
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marti 


g 
(Ni — 1)s? 


2 
Sp N-g 


i=1 
来 考察 一 下 Bartlett 检验 法 的 基本 原理 。s3 是 子 组 方差 的 算术 平均 数 , 这 些 子 组 相应 的 几何 
平均 数 可 以 记 为 : 


GMS = |(s2) f(s2)F od) 


其 dp 真一 而 一 了 二 有 兴 外 二 和 在 四 二 完了 = 

由 于 几何 平均 数 总 不 会 超过 算术 平均 数 ， 所 以 有 GMS<s3， 等 号 成 立 当 且 仅 当 各 个 s 彼 此 
相等 ， 如 果 各 个 弛 间 的 差异 越 大 ， 则 这 两 个 平均 数 相差 也 越 大 。 由 此 可 见 ， 如 果 各 总 体 方差 相 
等 ， 其 样本 方差 间 不 应 相差 较 大 ， 从 而 比值 s2/GM5 接 近 于 1。 反 之 ,在 比值 s2/GMS 较 大 时 ， 就 
意味 着 各 样本 方差 差异 较 大 ， 从 而 反映 各 总 体 方差 差异 也 较 大 。 这 个 结论 对 该 比值 的 对 数 也 成 
立 。 巴 特 利 特 证 明 ， 在 样本 量 较 大 时 ， 有 如 下 近似 分 布 : 


N 一 N= 
( | — s2—In GMS] = ( - 9) fo s? -Fm [Gs2)A Gs). on 





=[v —g)Ins2— (filnst +folns? +.…+ flnsz)] 


~X*(g— 1) 





g 
1 
Ss (N—g)Ins? - >》 — 1)lns? 


i=1 





其 中 ， 


er es 


因此 作为 检验 统计 量 ， 对 于 给 定 的 显著 水 平 c， 检 验 的 拒绝 域 为 : 
W={7> Xia(g —D)} 
考虑 到 这 里 的 卡 方 分 布 是 近似 分 布 , 所 以 各 样本 的 容 量 在 均 不 小 于 5 时 使 用 上 述 述 检验 是 比较 妥当 
的 。 
下 面 以 大 鼠 全 肺 湿 重 的 数据 为 例 演 示 使 用 Bartlett 法 进行 方差 齐 性 检验 的 基本 步骤 。 首先 提 
出 如 下 原 假设 和 备 择 假设 。 





iG? 二 可 二 02; 所; 不成立 
然后 根据 上 面 的 公式 ， 可 以 算得 一 些 中 间 过 程 的 结果 如 下 : 
s2 =0.2017,  s2=0.1547,  s2 = 0.4507 
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Ins? =—1.6011, lns? =—1.8665, lns# = 一 0.7970 


9g 3 
> Cu 一 Dins? = >》 (6 — 1)Ins? = -21.3232 
t=1 ti=1 


e (Ni—1)st 1 2 
2 一 人 二 一 一 一 2 一 
= » Ns “入 De 1)s? = 0.269 
丰 


(N—g)Ins? = 15x1n0.269 = 一 19.6957 


1 9 1 1 1 和 和 入 1 
i i =1+6x (+5+5-15)= 10889 
于 是 可 以 得 出 检验 统计 量 : 
Ee 一 19.6957 — (一 21.3232) 
加 1.0889 
在 R 中 使 用 下 面 的 代码 来 算得 相应 的 P 值 。 由 于 P 值 远 远大 于 0.05 的 显著 水 平 ， 不 能 拒绝 原 
假设 ， 据 此 可 以 认为 不 同 环境 下 的 各 组 数据 是 等 方差 的 。 
> pehisa(l. 4947, 2, LSWGi。 世 Ed 二 ) 
[1] 0.47362 
上 述 计 算 过 程 可 以 使 用 R 中 提供 的 函数 bartlett.test() 来 完成 。 该 函数 的 调用 形式 有 两 种 ,其 


== .后 
丰 ; 


= 1.4947 


bartiett teste (x gr 


此 处 的 参数 x 是 数据 向 量 或 者 列表 , g 是 因子 向 量 , 如 果 x 是 列表 则 忽略 g。 另外 一 种 调用 形式 为 : 
bartlett.test (formula, data, subset, na.action...) 


此 处 formula 表示 方差 分 析 公 式 ; data 指数 据 集 ; subset 是 可 选项 ， 用 来 指定 观测 值 的 一 个 子 集 
用 于 分 析 ; na.action 表示 遇 到 缺失 值 时 应 该 采取 的 行为 。 下 面 的 代码 演示 了 这 种 形式 的 用 法 。 
易 见 所 得 之 结果 与 前 面 的 计算 结果 是 相 一 致 的 。 


> bartlett.test(X ~ A, data = my.data) 
Bartlett test of homogeneity of variances 


data: X by A 
Bartlett's K=squared = 1.4947, df = 2, p-value = 0.4736 


12.5.2 ”Levene 检 验 法 


与 Bartlett 检验 法 比较 ，Levene 检验 法 在 用 于 多 样本 方差 齐 性 检验 时 ， 所 分 析 的 资料 可 不 
具有 正 态 性 。 对 于 一 个 给 定 的 随机 变量 Y， 它 的 一 个 容量 为 N 的 样本 被 分 成 了 g 个 子 组 ，ni 是 其 
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中 第 i 个 子 组 的 容量 。 则 Levene 检验 统计 量 定义 为 : 


9 


=(N— Dm,- zy /0 1DY yu- 


i=1 J 
其 中 25 可 以 是 如 下 3 个 定义 中 的 一 个 。 
® 7; = |Y;—| 
这 里 是 第 i 个 子 组 的 平均 数 。 
。 Zy= | =— 史 
这 里 名 是 第 i 个 子 组 的 中 位 数 。 
®。 2 =|Y—¥| 
这 里 六 是 第 i 个 子 组 的 10% 切 尾 平均 数 。 
美国 生物 统计 学 家 和 遗传 学 家 霍华德 。 莱 文 (Howard Levene) 最 初 在 1960 年 提出 该 方法 
时 只 提出 使 用 平均 数 。 后 来 在 1974 年 , 美国 生物 统计 学 家 莫 顿 oid gt 福 
赛 思 (Alan Forsythe) 扩展 了 原 有 的 Levene 检验 。 他 们 使 用 蒙特 卡 洛 法 进行 研究 ， 结果 表明 如 


果 数 据 旺 现 柯 西 分 布 ( 即 重 尾 ) 时 ， 最 好 使 用 切 尾 平均 数 。 如 果 数 据 服从 一 个 好 分 布 ( 即 偏 态 ) 
时 ， 则 最 好 使 用 中 位 数 。 
若 检 验 统计 量 W > 及 (g -站 N - g)，Levene 检验 将 在 显著 水 平 c 下 ， 拒 绝 原 假设 ， 即 认为 
数据 不 满足 齐 方差 性 。 
观察 Levene 检验 统计 量 的 定义 式 ， 其 实 不 难 发 现 ， 该 检验 的 本 质 就 是 对 由 随机 变量 Y 的 均 
值 ( 或 中 位 数 ， 或 切 位 均值 离 差 构 成 的 新 分 组 数据 进行 单 因素 方差 分 析 。 因 为 这 些 离 差 反 映 
了 原 数据 的 方差 分 布 特性 ， 如 果 这 些 离 差 被 认定 是 等 均值 的 ， 那 么 显然 就 表明 原 数据 是 齐 方差 
的 。 定 义 式 所 反映 的 内 容 经 由 如 下 变化 将 成 为 本 章 前 面 已 经 给 出 的 形式 : 
Fn HD/ -l) (DD /(g—)) 
D722) /(N—g) Fez —2) /Ng9) 
_ S54/(g—1) _ Ms 
SSE/(N—g) MSF 
下 面 以 大 鼠 全 肺 湿 重 的 数据 为 例 演示 在 第 一 种 定义 下 的 Levene 检验 统计 量 计算 步骤 。 首先， 
根据 公式 Zij = | 一 吏 | 来 计算 出 由 7 的 均值 离 差 构成 的 新 分 组 数据 ， 如 表 12-8 所 示 。 
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表 12-8 分 组 数据 


S17 0.117 0.483 0.283 





0.167 0.733 0.033 0.367 


L133 0233 0167 





根据 表 12-8 可 以 算得 一 些 中 间 过 程 的 结果 如 下 : 


g ni 
SSr = D2 = 区) 


i=4 j=1 
5 6 
= 一 0. 383)” 十 > 一 0. 267) 十 2 23 一 0. 467) 
i=1 11 
= 1.420 


S90: .557 SS 一 人 12 
此 外 ，5S54 亦 可 由 下 面 的 过 程 算得 : 


9g 
.994 三 pa ni (Zi oe 2)? 

i=1 
=6x (7 -H+6x (Zz -D?+6x (ZZ 

= 0.00077 + 0.06657 + 0.05377 = 0.12111 
于 是 可 得 : 

_ 15xS54 15x0.121 
2xS5g 2x 1.420 


上 述 过 程 显然 只 是 一 个 单 因素 方差 分 析 中 的 F 统 计量 计算 过 程 ， 所 以 可 以 在 R 中 使 用 aov() 
函数 来 完成 。 


六 CN 全 8S 0 LT OTL 0 3 :0.02037 O17 
OAT Oe O33 O03 0 3 003 
6 a Se 0.233; Qn 0.167, 0.033) 
A <- factor(rep(1:3, each=6)) 
my.data <- data.frame (X, A) 
my:aov <- aov(X~A; data = my.data) 
summary (my-aov) | 

Df Sum sg Mean SG F value Pr (>F) 


~ 0.639 


VV VV V + 二 V 
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vere 


A 2.9.1211,.0.06056 Qe64 O94. 
Resiouasls, ho M4200 .0.094607 


除 此 之 外 ，R 中 还 提供 了 之 前 进行 Levene 检验 的 函数 。 首 先 我 们 可 以 使 用 car 包 中 的 函数 
leveneTest()， 其 中 参数 center 用 以 指定 使 用 何 种 定义 的 Levene 检验 ， 其 默认 值 为 “median”， 
即 采 用 由 中 位 数 定 义 的 形式 。 如 果 将 这 个 参数 的 值 置 为 “mean” 则 表示 使 用 均值 定义 的 形式 。 
下 面 示例 代码 的 输出 结果 与 我 们 前 面 算 得 的 结果 是 一 致 的 。 


> library (car) 

> leveneTest(X ~ A, data = my.data) 

Levene's Test for Homogeneity of Variance (center = median) 
BE FE Valne Pr(l>F) 

roup 2 0.59090 0 -HOLY 
5 








> leveneTest(X 7 A data i my .data, center = mean) 
Levene's Test for Homogeneity of Variance (center = mean) 

DE FE Value Pr(>F) 
Group 2 0.6397 0.5413 

19 

在 lawstat 包 中 也 提供 了 一 个 用 于 执行 Levene 检验 的 函数 levene.test()， 它 的 使 用 与 car 包 
中 的 函数 leveneTest0 略 有 不 同 ， 读 者 可 以 参考 下 列 示 例 代码 来 了 解 它 的 用 法 。 特 别 地 ， 用 于 指 
示 采 用 何 种 定义 形式 的 参数 location 可 以 接受 3 个 值 ， 即 除了 均值 、 中 位 数 以 外 ，levene.test() 
函数 还 可 以 用 于 执行 切 位 均值 定义 下 的 Levene 检验 。 
> liprary(lawstat) 
> levene.test (xX, A, location="median") 


















































modified robust Brown-Forsythe Levene-type test based on the 
absolute deviations from the median 


data:, X 
Test Statistic= .0.5996, p-value = 0,5617 


> levene.test(X, A, location="mean") 


~ Glassical Levene's test based on the absolute deviations from the 
， mean ( none not applieq becayse the location is not set te median ) 


data: 
Test Statistic = 0,.6397, pvalue = 0.5413 

以 上 各 种 方法 所 得 之 结果 都 是 一 致 的 ， 因 为 P 值 远大 于 0.05, 我 们 无 法 拒绝 原 假 设 ， 所 以 认 
为 原 数 据 是 满足 方差 齐 性 的 。 
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聚 类 是 将 相似 对 象 归 到 同一 个 簇 中 的 方法 ， 这 有 点 像 全 自动 分 类 。 簇 内 的 对 象 越 相似 ， 育 
类 的 效果 越 好 。 本 章 后 面 所 讨论 的 分 类 问题 都 是 有 监督 的 学 习 方式 〈 例 如 支持 向 量 机 、 神 经 网 
络 等 )， 本 章 所 介绍 的 聚 类 则 是 无 监督 的 。 具 体 而 言 ， 本 章 将 主要 介绍 K 均值 方法 和 EM 方法 
及 它们 的 衍生 算法 。 其 中 ，K 均值 是 最 基本 、 最 简单 的 聚 类 算法 ， 而 EM 方法 中 将 用 到 前 面 介 
绍 过 的 极 大 似 然 估计 ， 读 者 最 好 在 掌握 相关 内 容 的 基础 上 开展 本 部 分 的 学 习 。 


13.1 聚 类 的 概念 


聚 类 分 析 试图 将 相似 对 象 归 入 同一 簇 ， 将 不 相似 对 象 归 到 不 同和 能 。 相 似 这 一 概念 取决 于 所 
选择 的 相似 度 计算 方法 。 后 面 我 们 还 会 介绍 一 些 常见 的 相似 度 计 算 方法 。 这 里 需要 说 明 的 是 ， 
到 底 使 用 哪 种 相似 度 计算 方法 取决 于 具体 应 用 。 聚 类 分 析 的 依据 仅仅 是 那些 在 数据 中 发 现 的 描 
述 特征 及 其 关系 ,而 聚 类 的 最 终 目标 是 , 组 内 的 对 象 相互 之 间 是 相似 的 (或 相关 的 )， 而 不 同 组 
中 的 对 象 是 不 同 的 (或 不 相关 的 )。 也 就 是 说 , 组 内 的 相似 性 越 大 , 组 间 差 别 越 大 , 聚 类 就 越 好 。 


在 许多 应 用 中 ， 簇 的 概念 都 没有 很 好 地 加 以 定义 。 为 了 理解 确定 簇 构 造 的 困难 性 ， 考 虑 如 
图 13-1 所 示 的 数据 集 。 显 然 ， 无论 是 左 图 还 是 右 图 ， 左 下 方 的 数据 集 都 能 够 很 明显 地 与 右上 方 
的 数据 集 区 别 开 。 但 是 右上 方 的 数据 集 在 左 图 中 又 被 分 成 了 两 个 徐 。 而 在 右 图 中 则 被 看 成 是 一 
个 徐 ， 从 视觉 角度 来 说 ， 这 可 能 也 不 无 道理 。 该 图 表明 簇 的 定义 是 不 精确 的 ， 而 最 好 的 定义 依 
赖 于 数据 的 特性 和 期 望 的 结果 。 

聚 类 (Clustering) 分 析 与 其 他 将 数据 对 象 分 组 的 技术 相关 。 聚 类 也 可 以 看 成 是 一 种 分 类 ， 
它 用 分 类 (或 称 徐 ) 标号 来 标记 所 创建 对 象 。 但 正如 定义 中 所 谈 到 的 ， 我 们 只 能 从 数据 入 手 来 
设法 导出 这 些 标号 。 相 比 之 下 ， 本 书后 面 章节 中 所 讨论 的 分 类 是 监督 分 类 (Supervised 
classification)， 即 使 用 类 标号 原本 就 已 知 的 对 象 建立 的 模型 ， 对 新 的 、 无 标记 的 对 象 进行 分 类 
标记 。 因 此 ， 有 时 称 聚 类 分 析 为 非 监 督 分 类 (Unsupervised classification)。 在 数据 挖 气 中， 术语 
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“分 类 (Classification)” 在 不 加 任何 说 明 时 ， 通常 指 监 督 分 类 。 总 而 言 之 ， 聚 类 与 分 类 的 最 大 不 
同 在 于 ， 分 类 的 目标 事先 已 知 ， 而 聚 类 则 不 一 样 。 因 为 其 产生 的 结果 与 分 类 相同 ， 而 只 是 类 别 
没有 预先 定义 ， 聚 类 有 时 也 被 称 为 无 监督 分 类 。 





13-1 相同 点 集 的 不 同 聚 类 方法 


术语 分 割 (Segmentation) 和 划分 〔(Partitioning) 有 时 也 被 用 作 聚 类 的 同义词 ， 但 是 这 些 术 
语 通常 是 针对 某 些 特殊 应 用 而 言 的 ， 或 者 说 是 用 来 表示 传统 聚 类 分 析 之 外 的 方法 。 术 语 分 割 在 
数字 图 像 处理 和 计算 机 视觉 领域 中 被 用 来 指 代 对 图 像 不 同 区 域 的 分 类 (例如 前 景 和 背景 的 分 割 ， 
或 者 高 亮 部 分 和 灰暗 部 分 的 分 割 等 ), 例如 典型 的 大 津 算法 等 。 但 我 们 知道 ， 图 像 分 割 中 的 很 多 
技术 都 源 自 机 器 学 习 中 的 聚 类 分 析 。 

不 同类 型 的 聚 类 之 间 最 常 被 讨论 的 差别 是 : 艇 的 集合 是 嵌 套 的 ， 还 是 非 嵌 套 的 ; 或 者 用 更 
标准 的 术语 来 说 , 聚 类 可 以 分 成 层次 聚 类 和 划分 聚 类 两 种 其中, 划分 聚 类 (Partitional clustering) 
简单 地 将 数据 集 划分 成 不 重 登 的 子 集 (也 就 是 徐 )， 使 得 每 个 数据 对 象 恰 在 一 个 子 集 中 。 与 之 相 
对 应 的 ， 如 果 人 允许 子 集中 还 谍 套 有 子 子 集 ， 则 我 们 得 到 一 个 层次 聚 类 〈Hierarchical clustering )。 
层次 聚 类 的 形式 很 像 一 棵 树 的 结构 。 除 叶 节 点 以 外 ， 树 中 每 一 个 节点 ( 簇 ) 都 是 其 子女 ( 子 艇 ) 
的 并 集 ,而 根 是 包含 所 有 对 象 的 簇 。 通 常情 况 下 (但 也 并 非 绝对 )， 树 叶 是 单个 数据 对 象 的 单元 
素 秘 。 本 书 不 讨论 层次 聚 类 的 情况 。 


13.2 KK 均值 算法 


K 均值 (K-means) 育 类 算法 是 一 种 最 老 的 、 最 广泛 使 用 的 聚 类 算法 。 该 算法 之 所 以 称 为 K 
均值 ， 那 是 因为 它 可 以 发 现 K 个 不 同 的 徐 ， 且 每 个 入 的 中 心 均 采 用 簇 中 所 含 数据 点 的 均值 计算 
而 成 。 
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13.2.1 距离 度量 

前 面 说 过 ， 组 内 元 素 的 相似 性 越 大 ， 组 间 差 别 越 大 ， 聚 类 就 越 好 。 当 要 讨论 两 个 对 象 之 间 
的 相似 度 时 ， 我 们 同时 也 是 在 隐 含 地 讨论 它们 之 间 的 距离 。 显 然 ， 相 似 度 和 距离 是 一 对 共生 的 
概念 。 对 象 之 间 的 距离 越 小 , 它们 的 相似 度 就 越 高 , 反之 亦 然 。 通 常用 于 定义 距离 (或 相似 度 ) 
的 方法 也 有 很 多 。 这 里 介绍 其 中 最 主要 的 3 种 方法 。 

。 闵 科 夫 斯 基 距 离 

通常 n 维 矢量 空间 R,， 其 中 任意 两 个 元 素 x = [所 他; 和? = [7 他 ;的 距离 定义 为 : 


Dl -| 


i=1 


dz(X,y) = 





上 式 所 定义 的 就 是 我 们 最 常用 到 的 欧 几 里 得 距离 。 同 样 , 在 R% 中 还 可 以 引入 所 谓 的 曼哈顿 距离 : 


di(%,y) = > Ei ml 


i=1 


而 对 于 更 泛 化 的 情况 ， 笔 者 便 可 推广 出 下 面 的 这 个 所 谓 的 闵 科 夫 斯 基 距 离 : 


, 
2 p 
wn= [>a -np p>1 


i=1 

。 余弦 距离 

对 于 两 个 n 维 样本 点 x(&1,62,…, 纪 ) 和 y(m1,12,… ,nn)， 可 以 使 用 类 似 于 夹 角 余弦 的 概念 来 衡 
量 它们 间 的 距离 (相似 程度 〉。 

cos0= La 
|xlly| 

即 

和 人 
VE VE 

夹 角 余弦 取 值 范围 为 [-1,1]。 夹 角 余弦 越 大 表示 两 个 向 量 的 夹 角 越 小 ， 夹 角 余弦 越 小 表示 
两 个 向 量 的 夹 角 越 大 。 当 两 个 向 量 的 方向 重合 时 夹 角 余弦 取 最 大 值 1， 当 两 个 向 量 的 方向 完全 相 
反 时 夹 角 余弦 取 最 小 值 一 1。 

。 杰 卡 德 相似 系数 

杰 卡 德 相似 系数 (Jaccard similarity coefficient) 是 衡量 两 个 集合 的 相似 度 的 一 种 指标 。 两 个 
集合 4 和 有 的 交集 元 素 在 4 和 有 B 的 并 集中 所 占 的 比例 ， 称 为 两 个 集合 的 杰 卡 德 相似 系 数 : 
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Lv re te 





_ naBl 
TB IA4UB| 
与 杰 卡 德 相似 系数 相反 的 概念 是 杰 卡 德 距离 。 杰 卡 德 距离 可 用 如 下 公式 表示 : 


I4UBI--|4nN8B| 
I4UB| 


杰 卡 德 距离 用 两 个 集合 中 不 同 元 素 占 所 有 元 素 的 比例 来 衡量 两 个 集合 的 区 分 度 。 


杰 卡 德 相似 系数 〈 或 距离 ) 的 定义 与 前 面 讨论 的 两 个 相似 度 度量 的 方法 看 起 来 很 不 一 样 ， 
它 面向 的 不 再 是 两 个 n 维 矢量 , 而 是 两 个 集合 。 本 书 中 的 例子 不 太 会 用 到 这 种 定义 , 但 读者 不 禁 
要 问 ， 这 种 相似 性 定义 在 实际 中 有 何 应 用 。 对 此 ， 我 们 稍 作 补 充 。 杰 卡 德 相似 系数 的 一 个 典型 
应 用 就 是 分 析 社 交 网 络 中 的 节点 关系 。 例如， 现在 有 两 个 微 博 用 户 4 和 B，T(4) 和 T(B) 分 别 表示 
A 和 B 的 好 友 集 合 。 系 统 在 为 4 或 B 推 荐 可 能 认识 的 人 时 ， 就 会 考虑 4 和 B 之 间 彼 此 认识 的 可 能 性 
有 多 少 〈 假 设 二 者 的 微 博 并 未 互相 关注 )。 此 时 ， 系 统 就 可 以 根据 杰 卡 德 相似 系数 来 定义 二 者 和 披 
此 认识 的 可 能 性 为 : 


IT(4) NT(B)| 
IT(4) UT(B)| 


当然 ， 这 仅仅 是 现实 社交 网 络 系统 中 进行 关系 分 析 的 一 个 维度 ， 但 它 的 确 反映 了 杰 卡 德 相似 系 
数 在 实际 中 的 一 个 典型 应 用 。 
13.2.2 ”算法 描述 


在 KK 均值 算法 中 ， 质 心 是 定义 聚 类 原型 (也 就 是 机 器 学 习 获 得 的 结果 ) 的 核心 。 在 介绍 算 
法 实施 的 具体 过 程 中 ， 我 们 将 演示 质心 的 计算 方法 。 而 且 你 将 看 到 除了 第 一 次 的 质心 是 被 指定 
的 以 外 ， 些 后 的 质心 都 是 经 由 计算 均值 而 获得 的 。 


首先 ， 选 择 玉 个 初始 质心 《这 天 个 质心 并 不 要 求 来 自 于 样本 数据 集 )， 其 中 K 是 用 户 指定 
的 参数 ， 也 就 是 所 期 望 的 能 的 个 数 。 每 个 数据 点 都 被 收 归 到 距 其 最 近 之 质心 的 分 类 中 ， 而 同一 
个 质心 所 收 归 的 点 集 为 一 个 簇 。 然 后 ， 根 据 本 次 分 类 的 结果 ， 更 新 每 个 艇 的 质心 。 重 复 上 述 数 
据点 分 类 与 质心 变更 步骤 ， 直 到 簇 内 数据 点 不 再 改变 ， 或 者 等 价 地 说 ， 直 到 质心 不 再 改变 。 


基本 的 K 均值 算法 描述 如 下 。 

1. 选择 天 个 数据 点 作为 初始 质心 。 

2. 重复 以 下 步骤 ， 直 到 质心 不 再 发 生变 化 。 

3 将 每 个 点 收 归 到 距 其 最 近 的 质心 ， 形 成 个 簇 。 
4. 重新 计算 每 个 簇 的 质心 。 


1(4,8) = 
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图 13-2 通过 一 个 例子 演示 了 K 均值 算法 的 具体 操作 过 程 。 假 设 我 们 的 数据 集 如 表 13-1 所 
示 。 开 始 时 ， 算 法 指定 了 两 个 质心 4(15,5) 和 B(5,15)， 并 由 此 出 发 ， 如 图 13-2(a) 所 示 。 


表 13-1 初始 数据 集 


根据 数据 点 到 质心 4 和 有 的 距离 对 数据 集中 的 点 进行 分 类 ， 此 处 我 们 使 用 的 是 欧 几 里 得 距离 ， 如 
图 13-2(b) 所 示 。 然后 , 算法 根据 新 的 分 类 来 计算 新 的 质心 (也 就 是 均值 ), 得 到 结果 4(8.2,5.2) 和 
B(10.7,13.6)， 如 表 13-2 所 示 。 


表 13-2 计算 新 质心 





根据 数据 点 到 新 质心 的 距离 ， 再 次 对 数据 集中 的 数据 进行 分 类 ， 如 图 13-2(c) 所 示 。 然 后 ， 算 法 
根据 新 的 分 类 来 计算 新 的 质心 ， 并 再 次 根据 数据 点 到 新 质心 的 距离 ， 对 数据 集中 的 数据 进行 分 
类 。 结 果 发 现 艇 内 数据 点 不 再 改变 ， 所 以 算法 执行 结束 ， 最 终 的 聚 类 结果 如 图 13-2(d) 所 示 。 


对 于 距离 函数 和 质心 类 型 的 某 些 组 合 ， 算 法 总 是 收敛 到 一 个 解 ， 即 K 均值 到 达 一 种 状态 ， 
聚 类 结果 和 质心 都 不 再 改变 。 但 为 了 避免 过 度 迭 代 所 导致 的 时 间 消 耗 ， 实 践 中 ， 也 常用 一 个 较 
弱 的 条 件 蔡 换 掉 “质心 不 再 发 生变 化 ”这 个 条 件 。 例 如 ， 使 用 “直到 仅 有 1% 的 点 改变 和 能”。 

尽管 K 均值 聚 类 比较 简单 ， 但 它 也 的 确 相 当 有 效 。 它 的 某 些 变种 甚至 更 有 效 ， 并 且 不 太 受 
初始 化 问题 的 影响 。 但 K 均值 并 不 适合 所 有 的 数据 类 型 。 它 不 能 处 理 非 球形 徐 、 不 同 尺 寸 和 不 
同 密度 的 徐 ， 尽 管 指定 足够 大 的 簇 个 数 时 它 通 常 可 以 发 现 纯 子 艇 。 对 包含 离 群 点 的 数据 进行 聚 
类 时 , K 均值 也 有 问题 。 在 这 种 情况 下 , 离 群 点 检测 和 删除 大 有 帮助 。K 均值 的 另 一 个 问题 是 ， 
它 对 初 值 的 选择 是 敏感 的 ， 这 说 明 不 同 初 值 的 选择 所 导致 的 迭代 次 数 可 能 相差 很 大 。 此 外 ，K 
值 的 选择 也 是 一 个 问题 。 显 然 ， 算 法 本 身 并 不 能 自 适应 地 判定 数据 集 应 该 被 划分 成 几 个 艇 。 最 
后 , K 均值 仅 限 于 具有 质心 (均值) 概念 的 数据 。 一 种 相关 的 KK 中 心 点 聚 类 技术 没有 这 种 限制 。 
在 K 中 心 点 聚 类 中 ， 我 们 每 次 选择 的 不 再 是 均值 ， 而 是 中 位 数 。 这 种 算法 实现 的 其 他 细节 与 开 
均值 相差 不 大 ， 我 们 不 再 资 述 。 
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图 13-2 均值 聚 类 实例 


13.2.3 ”应 用 实例 
elt ib lb 该 函数 的 基本 调用 格式 如 下 。 





其 中 ，x 是 要 进行 聚 类 分 析 的 数据 集 ; centers 为 预 设 的 类 别 数 K; itermax 为 最 大 迭代 次 数 ， 其 
默认 值 为 10。 参 数 nstart 指定 了 选择 随机 起 始 质心 的 次 数 ， 默 认 值 为 1。 最后， 参数 algorithm 
给 出 了 4 种 可 供 选 择 的 算法 ,它们 本 质 上 仍然 是 均值 算法 ,只 是 在 具体 执行 时 会 有 细微 差别 ， 
读者 可 不 必 深 究 。 默 认 情 况 下 ， 参 数 algorithm 的 默认 值 为 “Hartigan-Wong”。 


一 组 来 自 世界 银行 的 数据 统计 了 30 个 国家 的 两 项 指标 , 我 们 用 如 下 代码 读 入 文件 并 显示 其 
中 最 开始 的 几 行 数据 。 可 见 ， 数 据 共 分 3 列 。 其 中 第 1 列 是 国家 的 名 字 ， 该 项 与 后 面 的 聚 类 分 
析 无 关 ， 我 们 更 关心 后 面 两 列 信息 。 第 2 列 给 出 的 该 国 第 三 产业 增加 值 占 GDP 的 比重 ， 最 后 一 
列 给 出 的 是 人 口 结构 中 年 龄 大 于 等 于 65 岁 的 人 口 〈 也 就 是 老龄 人 口 ) 占 总 人 口 的 比重 。 


wwaibbt.com DOOO00D 
312 


第 13 章 聚 类 分 析 


> countries= read.csv("c:/countries data.csv") 
> head (countries) 
Qountries services of GDP ages6o5 "above of total 


1 Belgium TO 18 
2 France Te 18 
3 -Denmark 76.2 18 
4 Spain 73.9 18 
5 Japan 72.6 25 
6 Sweden 23% Ly 


为 了 方便 后 续 处 理 ， 下 面 对 读 入 的 数据 库 进 行 一 些 必要 的 预 处 理 ， 主 要 是 调整 列 标签 ， 以 
及 用 国名 替换 掉 行 标签 〈 同 时 删除 包含 国名 的 列 )。 
var = as.character (countries$countries) 
for(i in 1:30) dimnames (countries) [[1]]{i] = var{i] 


countries = countries[,2:3] 
names (countries) = c("Services(®)", "Aged Population(%)") 


Ve vo 


head(countries) 
Services'(%) Aged Population(%®) 


Belgium TE 18 
France TBie9 18 
Denmark 人 18 
Spain T1383"9 18 
Japan 2 6 25 
Sweden 2 9 


如 果 你 绘制 这 些 数据 的 散 点 图 ， 不 难 发 现 这 些 数据 大 致 可 以 分 为 两 组 。 事 实 上 ， 数 据 中 有 
一 半 的 国家 是 OECD 成 员 国 ， 而 另外 一 半 则 属于 发 展 中 国家 (包括 一 些 东盟 国家 、 南 亚 国 家 和 
拉美 国家 )。 所 以 我 们 可 以 采用 下 面 的 代码 来 进行 K 均值 察 类 分 析 。 
> my.km <- kmeans (countries, center = 2) 
> my.km$center 、 ; 

Services(%) Aged Population!(%®) 

1 WA 42667 17 .01339332 
2 9293933 5,533333 
> head (my.km$oluster) 


Belgium France Denmark Spain Japan Sweden 
1 1 1 工 号 下 


对 于 聚 类 结果 ， 限 于 篇 幅 我 们 仍然 只 列 出 了 最 开始 的 几 条 。 但 是 如 果 用 图 形 来 显示 的 话 ， 可 能 
更 易于 接受 。 下 面 是 示例 代码 。 


> plot(countries, coL = my kmoLlyster) 
> points(my.km$centers, col = 1:2, pch = 8, cex = 2) 


上 述 代 码 的 执行 结果 如 图 13-3 所 示 。 
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Sevices(%) 
图 13-3 ” 聚 类 结果 


13.3 ”最 大 期 望 算法 


K 均值 算法 非常 简单 ， 相 信 读 者 都 可 以 轻松 地 理解 它 。 但 下 面 将 要 介绍 的 EM 算法 就 要 困 
难 许多 了 ， 它 与 第 8 章 中 介绍 的 极 大 似 然 估计 密切 相关 。 


13.3.1 ”算法 原理 


不 妨 从 一 个 例子 开始 我 们 的 讨论 ， 假 设 现在 有 100 个 人 的 身高 数据 ， 而 且 这 100 条 数据 是 
随机 抽取 的 。 一 个 常识 性 的 看 法 是 ， 男 性 身高 满足 一 定 的 分 布 ( 例 如 正 态 分 布 )， 女 性 身高 也 满 
足 一 定 的 分 布 ， 但 这 两 个 分 布 的 参数 不 同 。 我 们 现在 不 仅 不 知道 男女 身高 分 布 的 参数 ， 甚 至 不 
知道 这 100 条 数据 哪些 是 来 自 男 性 的 ， 哪 些 是 来 自 女性 的 。 这 正 符 合 聚 类 问题 的 假设 ， 除 了 数 
据 本 身 以 外 ， 并 不 知道 其 他 任何 信息 。 而 我 们 的 目的 正 是 推断 每 个 数据 应 该 属于 哪个 分 类 。 所 
以 对 于 每 个 样本 ， 都 有 两 个 需要 被 估计 的 项 ， 一 个 就 是 它 到 底 是 来 自 男性 身高 的 分 布 ， 还 是 来 
自 女 性 身高 的 分 布 。 另 外 一 个 就 是 ， 男 女 身 高 分 布 的 参数 各 是 多 少 。 


既然 我 们 要 估计 知道 A 和 B 两 组 参数 ， 在 开始 状态 下 二 者 都 是 未 知 的 ， 但 如 果 知 道 了 A 
的 信息 就 可 以 得 到 B 的 信息 ， 反 过 来 知道 了 B 也 就 得 到 了 A。 所 以 可 能 想到 的 一 种 方法 就 是 考 
虑 首先 赋予 A 某 种 初 值 ， 以 此 得 到 B 的 估计 ， 然 后 从 B 的 当前 值 出 发 ， 重 新 估计 A 的 取 值 ， 
这 个 过 程 一 直 持 续 到 收敛 为 止 。 你 是 否 隐约 想到 了 什么 ? 是 的 ， 这 恰恰 是 K 均值 算法 的 本 质 ， 
所 以 说 K 均值 算法 中 其 实 列 含 y EM 算法 的 本 质 。 


EM 算法 ， 又 称 期 望 最 大 化 (Expectation Maximization ) 算法 。 在 男女 身高 的 问题 里 面 ， 可 
以 先 随便 猜 一 下 男生 身高 的 正 态 分 布 参数 : 比如 可 以 假设 男生 身高 的 均值 是 1.7 米 , 方差 是 0.1 
米 。 当 然 ， 这 仅仅 是 我 们 的 一 个 猜测 ， 最 开始 肯定 不 会 太 准 确 。 但 基于 这 个 猜测 ， 便 可 计算 出 
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每 个 人 更 可 能 属于 男性 分 布 还 是 属于 女性 分 布 。 例 如 ， 有 个 人 的 身高 是 1.75 米 ， 显 然 它 更 可 能 
属于 男性 身高 这 个 分 布 。 据 此 ， 我 们 为 每 条 数据 都 划 定 了 一 个 归属 。 接 下 来 就 可 以 根据 极 大 似 
然 法 ， 通 过 这 些 被 大 概 认为 是 男性 的 若干 条 数据 来 重新 估计 男性 身高 正 态 分 布 的 参数 ， 女 性 的 
分 布 用 同样 方法 重新 估计 。 然 后 ， 当 更 新 了 这 两 个 分 布 的 时 候 ， 每 个 人 属于 这 两 个 分 布 的 概率 
又 发 生 了 改变 ， 那 么 就 需要 再 调整 参数 。 如 此 和 迭代， 直到 参数 基本 不 再 发 生变 化 为 止 。 


在 正式 介绍 EM 算法 的 原理 和 执行 过 程 之 前 ， 此 处 首先 对 边缘 分 布 的 概念 稍 做 补充 。 


随机 向 量 (X,Y) 的 累计 分 布 函 数 F(x,y) 可 以 完全 决定 它 分 量 的 概率 特征 。 因 此， 由 F(x,y) 应 
该 能 够 得 出 (X,Y) 的 分 量 X 的 分 布 函 数 Fx(x)， 以 及 分 量 Y 的 分 布 函 数据 (y)。 相 对 于 联合 分 布 
F(x,y)， 分 量 的 分 布 Fx(x) 和 Fy(y) 就 称 为 边缘 分 布 函 数 。 由 此 可 得 : 


到 CO = PIXSx)} = PESKYS + oj = F(x, +0) 
Fy(y) = P{YSy} = P{XS + ,YSy} = F(+o%,y) 
若 (X,Y) 是 二 维 离散 随机 变量 ， 则 : 
px = = P=) (Y=7)}= PU (X=207 =») 
J 


了 
= 》 B= =) =Y py 
. 天 

若 记 pi 一 P{X = xi}, 则 : 

Di = 

了 

同 理 p.; = Pp{Y 三 yi}s 着 记 ; 则 : 

DJ = 》 耻 


若 (X,Y) 是 二 维 连续 随机 变量 ， 并 设 概 率 密度 函数 为 p(x,y)， 则 : 


rd = | | peey| er 


px(x) = p(x,y)dy 


则 X 的 边缘 密度 函数 为 : 


同 理 可 得 : 
py(y) = |} p(x,y)dx 
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基于 上 述 介绍 ， 现 在 终于 可 以 正式 开始 EM 算法 的 讲解 了 。 


给 定 训练 样本 集合 {x1, xz，……xn}j， 样 本 间 相 互 独立 ， 但 每 个 样本 对 应 的 类 别 五 未 知 〈 也 就 
是 隐 含 变量 )。 我 们 的 终极 目标 是 确定 每 个 样本 所 属 的 类 别 zi 使 得 p(xi; zi) 取 得 最 大 。 则 可 以 写 
出 似 然 函数 为 : 


£0) =| [G0) 


i=1 


然后 对 两 边 同时 取 对 数 得 : 


£(0) =1log£(0) = > ore 0) = De z1;0) 


i=1 


注意 到 上 述 等 式 的 最 后 一 步 ， 其 实 利用 了 边缘 分 布 的 概率 质量 函数 公式 做 了 一 个 转换 ， 从 而 将 
隐 含 变量 zi 显示 了 出 来 。 它 的 意思 是 说 p(xi) 的 边缘 概率 质量 就 是 联合 分 布 p(xi, zi) 中 的 z; 取 遍 所 
有 可 能 取 值 后 ， 联 合 分 布 的 概率 质量 之 和 。 在 EM 算法 中 ，z; 是 标准 类 别 归 属 的 变量 。 例 如 ， 
在 身高 的 例子 中 ， 它 有 两 个 可 能 的 取 值 ， 即 要 么 是 男性 ， 要 么 是 女性 。 

EM 算法 是 一 种 解决 存在 隐 含 变量 优化 问题 的 有 效 方法 。 直 接 最 大 化 2(6) 存 在 一 定 困难 ， 
于 是 想到 不 断 地 建立 4(9) 的 下 界 ， 然 后 优化 这 个 下 界 来 实现 我 们 的 最 终 目 标 。 目 前 这 样 的 解释 
仍然 显得 很 抽象 ， 下 面 我 们 将 逐步 讲述 。 


对 于 每 一 个 样本 xi， 让 Qi 表示 该 样 例 隐 含 变量 到 的 某 种 分 布 ，Qi 满 足 的 条 件 是 〈 对 于 离散 分 
布 ，Qi 就 是 通过 给 出 概率 质量 函数 来 表征 某 种 分 布 的 ): 


> Qi(zi) = 1, Qi(z)>0 


如 果 z; 是 连续 的 (例如 正 态 分 布 )， 那么 Qi 是 概率 密度 函数 ， 需 要 将 求 和 符号 换 做 积分 符号 。 
可 以 由 前 面 阐述 的 内 容 得 到 下 面 的 公式 : 


n n 
2 logp(xi; 9) = 182, p(xi, 2i; 0) 


OX A 


这 是 EM 算法 推导 中 至 关 重 要 的 一 步 ， 它 巧妙 地 利用 了 人 詹 森 不 等 式 。 为 了 帮助 读者 理解 ， 下 面 
还 是 插入 一 段 关于 该 不 等 式 的 介绍 。 


是 函数 是 一 个 定义 在 某 个 向 量 空间 的 凸 子 集 C (区间 ) 上 的 实 值 函数 而 且 对 于 凸 子 集 C 中 
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flgpz + (1— 0)pi]<0f(p2)t+(1 — 0)f(p1) 


如 果 f 连 续 ， 那么 9 可 以 改 为 (0,1) 中 的 实数 。 若 这 里 的 凸 子 集 6 即 某 个 区 间 ， 那 么 f 就 为 定义 在 该 
区 间 上 的 函数 ，p1 和 p2 则 为 该 区 间 上 的 任意 两 点 。 


如 图 13-4 所 示 为 一 个 是 函数 示意 图 ， 结 合 图 形 ， 不 难 分 析 在 凸 函数 的 定义 式 中 ， 
9pz 十 (1 一 9)pi 可 以 看 作 pi; 和 p; 的 加 权 平 均 ， 因 此 f[9p2z 二 (1 一 9)pi] 是 位 于 函数 曲线 上 介 于 
Pi 和 p2 区 间 内 的 一 点 。 而 9f(p2) + (1 一 9)f(pi) 则 是 f(pi1) 和 f(p2) 的 加 权 平 均 ， 也 就 是 以 f (p1) 
和 f(p2) 为 端点 的 一 条 直线 段 上 的 一 点 。 或 者 也 可 以 从 直线 的 两 点 式 方程 来 考察 它 。 已 知 点 
(x1,y1) 和 (xz,y2)， 则 可 以 确定 一 条 直线 的 方程 为 : 

一 区 一 类 


y2—Y Xa NX1 







Of(p2) + (1—0)f(p)I— 


Fop2 4 C1 = Opalheeeree 
Fl 


pi Opz + (1— 08)p: we 
图 13-4 凸 函 数 示 意图 
现在 我 们 知道 直线 上 的 两 个 点 为 [pi,f (pi1)] 和 [pz,f(p2)], 于 是 便 可 根据 上 式 写 出 直线 方程 , 即 ; 
y—f(p) _ %—m 
f(p2)—f(p1) pz 一 Pi 
然后 又 知道 直线 上 一 点 的 横 坐 标 为 gp + (1 一 9)p:， 代 入 上 式 便 可 求 得 其 对 应 的 纵 坐 标 为 
gf(p2) + (1 — 0)f (pi). 
从 是 函数 的 这 一 性 质 所 引申 出 来 的 一 个 重要 结论 就 是 詹 森 (Jensen) 不 等 式 : 如 果 f 是 凸 函 
数 ，X 是 随机 变量 ， 那 么 就 有 E[f(X)]>f(E[X])。 特 别 地 ， 如 果 f 是 严格 的 凸 函 数 ， 那 么 当 且 仅 
当 X 是 常量 时 ， 上 式 取 等 号 。 
用 图 形 来 表示 和 詹 森 不 等 式 的 结论 是 一 目 了 然 的 。 假设 随机 变量 X 有 6 的 可 能 性 取得 值 p。>， 有 
(1 一 09) 的 可 能 性 取得 值 p;， 那 么 根据 数学 期 望 的 定义 可 知 E[X] = 9p; 十 (1 一 9)pi。 同 理 ， 
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E[f(X)] = 6F(pz)+(1-6)7GpD)。 所 以 可 得 : 


FEE) = f(0p2 + (1— 0)p1)<0f (pz) + (1— 0)f(pi) = ee 


考虑 到 对 数 函 数 是 一 个 凹 函数 ， 所 以 我 们 需要 把 上 述 关于 凸 函数 的 结论 颠倒 一 个 方向 。 而 
且 尽 管 形式 复杂 ， 但 是 还 应 该 注意 到 下 面 这 个 式 子 : 


2i;0 
S ge 0 





Qi(2i) 
其 实 就 是 
p(Xi, Zi 0) 
Qi(2i) 
的 数学 期 望 。 所 以 我 们 就 可 以 运用 詹 森 不 等 式 来 进行 变量 代 换 ， 即 ; 


,250 
f(EIX) = log 》 Qe) EEE >EIf ON] = Doe Gy 


p(xi, 2i; 9) 
Qi(2i) 


这 也 就 解释 了 上 述 推 导 的 原理 。 


上 述 不 等 式 给 出 了 #(9) 的 下 界 。 假 设 9 已 经 给 定 ， 那 么 2(9) 的 值 就 决定 于 Qi(zi) 和 p(xi, zi)。 
可 以 通过 调整 这 两 个 概率 使 下 界 不 断 上 升 ， 以 逼近 2(6) 的 真实 值 ， 那 么 什么 时 候 算是 调整 好 了 
呢 ? 当 不 等 式 变 成 等 式 时 ， 就 说 明 调整 后 的 概率 能 够 等 价 于 +(9) 了。 按照 这 个 思路 ， 算 法 应 该 
要 找到 等 式 成 立 的 条 件 。 根 据 詹 森 不 等 式 ， 要 想 让 等 式 成 立 ， 需 要 让 随机 变量 变 成 常数 值 。 就 
现在 讨论 的 问题 而 言 ， 也 就 是 : 
p(Xi2i0) _ 
Qi(2i) 中 
其 中 C 为 常数 ， 不 依赖 于 z;。 所 以 当 zi; 取 不 同 的 值 时 ， 会 得 到 很 多 个 上 述 形 式 的 等 式 ( 只 是 其 中 
的 zi 不 同 )， 然 后 将 多 个 等 式 的 分 子 分 母 相 加 ， 结 果 仍 然 成 比例 





Dy p(xi, Zi 0) - 
加 Qi(2i) 
又 因为 
方 Qi(CD=1 
所 以 可 知 : 


> p(xi2i;0)=C 
Zi 
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进而 根据 条 件 概率 的 公式 有 : 
_ Di200) p(xi,zi;0) 
i 
2i;0 
= a = p(zilxi; 0) 


到 目前 为 止 ， 我们 得 到 了 在 给 定 9 的 情况 下 Qi(zi) 的 计算 公式 ， 从 而 解决 了 Qi(zi) 如 何 选 择 
的 问题 。 这 一 步 我 们 还 建立 了 #(9) 的 下 界 。 下 面 就 需要 进行 最 大 化 ， 也 就 是 在 给 定 Qi(zi) 之 后 ， 
调整 9， 从 而 极 大 化 2(9) 的 下 界 。 那 么 一 般 的 EM 算法 步骤 便 可 按 如 下 步骤 执行 。 


给 定 初始 值 9， 重 复 循环 下 列 步骤 ， 直 到 收敛 。 
(EE 步 ) 记 对 于 每 个 Xi:， 计 算 Qi(zi) = p(zi|xi; 9) 


(M 步 ) 计算 9 := arg maxg 2 2z Qi (zD log eee 2 





13.3.2 ”收敛 探讨 


如 何 确定 算法 是 否 收敛 呢 ? 假设 9@ 和 gt+0 是 算法 第 :和 t+ 1 次 迭代 的 结果 。 如 果 有 证 据 
表明 4[6(D]<2[6c+35]， 就 表明 似 然 函数 单调 递增 ， 那 么 算法 最 终 总 会 取得 极 大 值 。 选 定 g 听 之 
后 ， 通 过 下 步 计算 可 得 : 


| = plzi|xi; 900] 
这 一 步 保 证 了 在 给 定 96 中 时 ， 詹 森 不 等 式 中 的 等 号 成 立 ， 也 就 是 : 


t[9®] = > opcom | 


二 oo 
然后 进入 M 步 ， 固 定 Q(9(z)， 并 将 6@9 看 作 变 量 ， 对 上 面 的 4[9(D] 求 导 后 ， 得 到 gCt+D 。 同 
时 会 有 下 面 的 关系 成 立 : 


(t+1) 
oem YY oP oe pb 二 
i=1 Zi 


( 
> > ope oerbsee| . ] sige 


i=1 Zi 


我 们 来 解释 一 下 上 述 结果 。 第 1 个 不 等 号 是 根据 


和 > DX eee 


i=1 zi 
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得 到 的 。 因 为 上 式 对 所 有 的 9 和 Qi 都 成 立 ， 所 以 只 要 用 gd+0 蔡 换 8 就 得 到 了 关系 中 的 一 个 不 等 
式 。 
第 2 个 不 等 号 利用 了 M 步 的 定义 。 公 式 : 


n 


p(xi, 2i; 0) 
0 一 ago Qi(2i) IgG 
的 意思 是 用 使 得 右边 式 子 取得 极 大 值 的 9 避 来 更 新 gt+9, 所 以 如 果 右 边 式 子 中 使 用 的 是 gd+39 必 
然 会 大 于 等 于 使 用 9 人 9 的 原 式 子 。 换 言 之 ,在 众多 9 中 9 中， 有 一 个 被 用 来 当 作 9G+3 的 值 ， 会 令 右 
式 的 值 相 比 于 取 其 他 9 中 时 所 得 出 的 结果 更 大 。 


关系 中 的 最 后 一 个 等 号 由 本 节 的 第 2 条 公式 即 可 直接 得 出 。 


因此 ， 就 证 明了 4(6) 会 单调 增加 ， 也 就 表明 EM 算法 最 终 会 收敛 到 一 个 结果 (尽管 不 能 
证 它 一 定 是 全 局 最 优 结果 ,但 必然 是 局 部 最 优 )。 实 践 中 ,收敛 的 方式 可 以 是 似 然 函 数 2(9) 的 值 
不 再 变化 ， 也 可 以 是 变化 非常 之 小 。 


13.4 ”高 斯 混合 模型 


高 斯 混合 模型 (GMM，Gaussian Mixture Model) 可 以 看 成 是 EM 算法 的 一 种 现实 应 用 。 利 
用 这 个 模型 可 以 解决 聚 类 分 析 、 机 器 视觉 等 领域 中 的 许多 实际 问题 。 


13.4.1 ”模型 推导 


在 讨论 EM 算法 时 ， 我 们 并 未 指定 样本 来 自 于 何 种 分 布 。 实 际 应 用 中 ， 常 常 假定 样本 是 来 
自 正 态 分 布 之 总 体 的 。 也 就 是 说 ， 在 进行 聚 类 分 析 时 ， 认 为 所 有 样本 都 来 自 具有 不 同 参数 控制 
的 数 个 正 态 总 体 。 例 如 前 面 讨论 的 男性 、 女 性 身高 问题 ， 我 们 就 可 以 假定 样本 数据 是 来 自如 图 
13-5 所 示 的 一 个 双 正 态 分 布 混合 模型 。 这 便 有 了 接 下 来 要 讨论 的 高 斯 混合 模型 。 














图 13-5 双 正 态 分 布 混合 模型 
给 定 的 训练 样本 集合 是 {x1, xz …, xn},， 我 们 将 隐 含 类 别 标签 用 zi 表示。 首先 假定 zi 满足 参数 
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为 由 的 多 项 式 分 布 ， 同 时 跟 13.3 节 所 讨论 的 一 致 ， 用 
Qi = P(zi=)) = P(zi = jlxi; 9, 4,0) 
也 就 是 在 E 步 ， 我 们 假定 知道 所 有 的 正 态 分 布 参数 和 多 项 式 分 布 参数 ， 然 后 在 给 定 xi 的 情况 下 
算 一 个 它 属于 zi 分 布 的 概率 。 而 且 z; 有 kk 个 值 ， 即 1,...,k， 可 以 选取 ， 也 就 是 k 个 高 斯 分 布 。 在 给 
定 zi 后 ，X 满 足 高 斯 分 布 (x; 是 从 分 布 X 中 抽取 的 )， 即 : 
(Xlzi =))~N(p,0;) 
回忆 一 下 贝 叶 斯 公式 


_ P(A)P(BIA) P(Ai)P(BIAi) 
PE) opy = "P(Aj)P(BIA)) 


由 此 可 得 : 


Pl(zi = jlxi; $)P(xilzi = j, 1, 0) 


Pl(z; = jx , ns 
A 


而 在 M 步 ， 我 们 则 要 对 


p(xi,2i; $, 4 0) 
22。 ng 


求 极 大 值 ， 并 由 此 来 对 参数 p、J、oa 进 行 佑 计 。 将 高 斯 分 布 的 函数 展开 ， 并 且 为 了 简便 ， 用 记 
号 Wj 来 蔡 换 Qi(zi = 万， 于 是 上 式 可 进一步 变 为 ， 


p(xilzi = j; WP(zi = j; 9) 
2 Qar = Dlog Qi(zi =)) 


rexp [-z(xi — Wi)o "(xi — 廊 )| 中 


_ C2rD 引 oj 
= > > wlog wi 


t=1 1 J 
为 了 求 极 值 ， 对 上 式 中 的 每 个 参数 分 别 求 导 ， 则 有 : 


i1 > 
of -BED wa(r mh) oj 1 
Ou onj 


1 ,20 xo! 忌 
二 A > 和 
一 了 7 本 wi (ai = 1pj) 


令 上 式 等 于 零 ， 可 得 : 
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em et retestetan mi tt 


Di wix 
Phaw 
这 也 就 是 M 步 中 对 jk 进行 更 新 的 公式 。o 更 新 公式 的 计算 与 此 类 似 ， 我们 不 再 具体 给 出 计算 过 
程 ， 后 面 在 总 结 高 斯 模型 算法 时 会 给 出 结果 。 

下 面 来 谈 参 数 p 的 更 新 公式 。 需 要 求 偏 导数 的 公式 在 消 掉 常数 项 后 ， 可 以 化 简 为 : 


yy wi log 内 


i=1 j=1 


Hi = 


而 且 几 还 需 满 足 一 定 的 约束 条 件 ， a 19@; = 1。 这 时 需要 使 用 拉 格 朗 日 乘 子 法 ， 于 是 有 : 


Pe logbj + B(- 7 


1 


当然 gj>0， 但 是 对 数 公式 已 经 隐 含 地 满足 了 这 个 条 件 ， 可 不 必 做 特殊 考虑 。 求 偏 导 数 可 得 : 


90) _ 呈 几 
中 pt 





令 偏 导数 等 于 零 ， 则 有 : 


这 表明 9j 与 D1 wi 成 比例 ， 阐 呈 各 风光 用 下 宙 训 他 tym 1 得 到 : 


n 


0 


i=1 j= te 


这 样 就 得 到 了 B 的 值 ， 于 是 最 终 得 到 gj; 的 更 新 公式 为 : 





综 上 所 述 ， 最 终 求 得 的 高 斯 混合 模型 求解 算法 如 下 。 
重复 循环 下 列 步 又 ， 直 到 收敛 。 
(E 步 ) 记 对 于 每 个 i 和 j， 计 算 





wi = P(zi = jlxi; $, 4,0) 





(M 步 ) 更 新 参数 : 
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hd 


peat metas 





ps: Di=1 Wi Xi 
tw 
. 2 
ns ZW (x py) 
了 一 
ETVW/ 





13.4.2 ”应 用 实例 

软件 包 mclust 提供 了 利用 高 斯 混合 模型 对 数据 进行 聚 类 分 析 的 方法 。 其 中 函数 Mclust0 是 
进行 EM 聚 类 的 核心 函数 ， 它 的 基本 调用 格式 为 : 
Mciust (data, G = NULL, modelNames = NULL, prior = NULT， 


Contrnol = emControl(), initialization = NOLL, 
warn = Incolast optaong ("warn"), ~...) 


其 中 ，data 是 待 处 理 数据 集 ，G 为 预 设 类 别 数 ， 默 认 值 为 1~9， 即 由 软件 根据 BIC 的 值 在 1~9 
中 选择 最 优 值 。 在 第 11 章 中 也 已 经 利用 BIC (或 AIC) 对 模型 进行 选择 的 方法 做 过 说 明 。 简 而 
言 之 ， 就 是 将 BIC 值 作为 评价 模型 优 劣 的 标准 时 ，BIC 值 越 高 模型 越 优 。 

下 面 的 示例 代码 对 前 面 给 出 的 国家 数据 进行 聚 类 分 析 ， 结 果 仍然 显示 这 些 国 家 被 成 功 地 分 
成 了 两 类 ， 每 类 包含 15 个 国家 。 


> my.em < 一 Molust(countries) 
> summary (my .em) 









































一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 


一 一 一 一 一 四 一 和 一 一 一 一 一 一 二 一 一 一 一 一 十 一 一 一 


Mclust EVI (diagonal, equal volume, varying shape) model with 2 components : 


10g. ikelihood n of BicC ICL 
“i79.29062 30 8 -365.802 -385 .8023 


Clustering table: 
出 2 
15 15 


如 果 想 获得 包括 参数 估计 值 在 内 的 更 为 具体 的 信息 ， 这 可 对 以 上 代码 稍 做 修改 。 注 意 ， 我 
们 略 去 了 输出 中 与 上 面 重 复 的 部 分 。 


> summary (my.em parameters = TRUE) 
Mixing probabilirips. 
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1 2 
0.4999956 0.5000044 


Means: 
度 测 [72] 

Services ($%) 74.42666 48.293568 
Aged Population(%) 17.13340 33373 
Variances: 
[rr1] 

Services(%), Aged Population'(%®) 
Services (对 ) 10.1814 0.00000 
Aged Population($%) 0.0000 L30313 
攻 元 2 

ServVices(s) Aged Population(%®) 
Services ($) 48.9951 0.000000 
Aged Population($%) 0.0000 2.716653 


我 们 也 可 以 利用 图 形 化 手段 对 上 述 结果 进行 展示 。 此 时 需要 用 到 mclust 软件 包 中 的 函数 
mclust2Dplot()， 示 例 代 码 如 下 。 


> mclust2Dplot (countries, parameters = my‘em$parameters, 
十 z = my.em$z, what = "classification", main = TRUE) 


上 述 示 例 代码 所 绘制 的 聚 类 结果 如 图 13-6 所 示 。 不 同形 状 和 颜色 的 数据 标记 表明 了 数据 点 
所 属 的 类 别 。 此 外 ， 如 果 将 上 述 代 码 中 的 参数 值 "classification" 修 改 成 "uncertainty"， 那 么 绘制 的 
结果 将 变 成 13-7 所 示 的 图 形 。 该 图 所 展示 的 是 分 类 结果 的 不 确定 性 情况 ,表示 样本 数据 的 圆 点 ， 
如 果 颜 色 越 深 、 面 积 越 大 ， 就 表示 不 确定 性 越 高 。 显 然 ， 所 有 的 数据 点 都 被 正确 分 类 了 ， 但 是 
两 个 簇 之 间 彼 此 靠近 的 部 分 往往 是 不 确定 性 更 高 的 区 域 。 


Classification Ciliassification Uncertainty 








Aged Population(%} 
Aged Populaton(%} 














30 40 50 60 70 30 
Semces(%) Sevces(%) 
图 13-6 “高 斯 混合 模型 聚 类 结果 图 13-7 高 斯 混合 模型 聚 类 的 不 确定 性 
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借助 densityMclust() 函 数 , 还 可 以 绘制 出 高 斯 混合 模型 的 密度 图 , 下面 的 代码 用 于 绘制 二 维 
的 概率 密度 图 ， 结 果 如 图 13-8 所 示 。 


> model density <- densityMclust (countries) 
> plot (model density, countriesy col = "cadetblue™", 
nlevels = 25, what = "density") 


或 者 也 可 以 使 用 下 面 的 代码 来 绘制 三 维 的 概率 密度 图 ， 结 果 如 图 13-9 所 示 。 其 中 参数 theta 用 
于 控制 三 维 图 像 水 平方 向 上 的 旋转 角度 。 


> Blot (model density, what = “density", type = "persp", theta = 235) 























& jj 本 
3 
0 
Xa | 和 
ww 4 ek: 3 
5 bh 
= T et 
30 40 50 60 70 80 
Services(%) 
图 13-8 ”高 斯 混合 模型 的 二 维 密度 图 图 13-9 ”高 斯 混合 模型 的 三 维 密度 图 
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AGEs EE CAPPER EB TE Ea PFE TC 


支持 向 量 机 dk Vector Machine，SVM) 是 统计 机 器 学 习 和 数据 挖掘 中 常用 的 一 种 分 
类 模型 。 它 在 自然 语言 处 理 、 计 算 机 视觉 以 及 生物 信息 学 中 都 有 重要 应 用 。 但 另 一 方面 支持 向 
ER Ia si sai 
于 支持 向 量 机 的 介绍 ， 这 是 从 线性 回归 到 支持 向 量 机 的 一 个 很 好 的 过 渡 。 


14.1 ”从 逻辑 回归 到 线性 分 类 


下 面 通 过 一 个 例子 来 简单 介绍 一 下 Logistic 回 归 的 基本 方法 。 为 研究 与 急性 心肌 梗塞 急诊 治 
疗 情况 有 关 的 因素 ， 现 收集 了 200 个 急性 心肌 梗塞 的 病例 ， 如 表 14-1 所 示 。 其 中 ， 六 用 于 指示 
救治 前 是 否 休克 ，X1 = 1 表示 救治 前 已 休克 ， 六 = 0 表示 救治 前 未 休克 ; Xs 用 于 指示 救治 前 是 
否 心 衰 ，X, = 1 表示 救治 前 已 发 生 心 衰 ，X。 = 0 表示 救治 前 未 发 生 心 衰 ; X3 用 于 指示 12 小 时 内 
有 无 治疗 措施 ，Xs = 1 表示 没有 ， 人 否则 Xs = 0。 最 后 P 给 出 了 病 患 的 最 终结 局 ， 当 P = 0 时 ， 表 
示 患 者 生存 ;， 否 则 当 P = 1 时 ， 表 示 患 者 死亡 。 


表 14-1 急性 心肌 梗塞 的 病例 数据 











moe ; | = 
oo | 0 5 | i 
i i | Dr He 
We vat rw i EE ne “a het 
和 
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如 果 要 建立 回归 模型 ， 进 而 来 预测 不 同情 况 下 病 患 生存 的 概率 ， 考 虑 用 多 重 回归 来 做 : 
P= Pot+PBiXi + BX2 + BaXs 


则 显然 将 自 变量 带 入 上 述 回 归 方 程 ， 不 能 保证 概率 P 一 定位 于 0 一 1。 于 是 想到 用 Logistic 函 数 将 
自 变量 映射 至 0 一 1。Logistic 函 数 的 定义 如 下 : 


04 


02 


00 


-4 -2 0 2 4 


图 14-1 Logistic 函 数 的 图 像 
然后 上 面 的 Logistic 函 数 定义 式 将 多 元 线性 回归 中 的 因 变 量 蔡 换 得 到 : 


p 
Ini -p= bo + PiX1t+*…+ BnXn 





eBotB1X1+…+BnXn 


Si 1 + eBotB1X1+…+pBnXn 


1 
b= 
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通常 采用 极 大 似 然 估计 法 对 参数 进行 求解 ， 对 于 本 题 而 言 则 有 : 
eBotB1X1t"+BnXn 1 
1 + eBo+BiX1++BnXn’ PUY = 1)= 














Pt(7= 人 而 = a 


进而 有 : 

Pa | exp(Bo) RE 全 1 Tr | 
上 汗 1 + exp(po) 1 十 exp(po) 
| exp(po + ps) a 1 于 - 

1 二 exp(po+p3) 1+exp(po + Bb;) 
| exp(Bo + Bi + Bz + Bs) 6 1 时 
1+exp(Bo+PB1+B2+B3) 1+exp(Bo + Pi+Bz+ Bs) 

[| exp(Bo + BiX1i + BaX2i + BsX3i) ]mm 
本 | 1 十 exp(Bo + BiXii + BaXzi + BaXai) 
| 
1 + exp(Bo + BiXii + BaXzi + B3X3i) 
寻找 最 适宜 的 Bb,、 遍 、 扁 、 遍 使 得 L 达 到 最 大 ， 最 终 得 到 估计 模型 为 : 








In = 一 2.0858 + 1.1098X1 + 0.7028X, + 0.9751Xs3 


1—P 


1 
~ 1 + e-(-2.0858+1.1098X1+0.7028X2+0.9751X3) 


例如 ， 现 在 有 一 名 患者 4 没有 休克 ， 病 发 5 小 时 后 送 医院 ， 而 且 已 出 现 了 症状 ， 即 六 = 0、 

X2 = 1、Xs =0， 则 可 据 此 计算 其 生存 的 概率 为 : 
1 

村-C20555707025 

同 理 ， 若 男 有 一 名 患者 B 已 经 出 现 休克 ， 病 发 18 小 时 后 送 医院 ， 出 现 了 症状 ， 即 和 % = 1、 
Xz2 = 二 1、Xs = 1， 则 可 据 此 计算 其 生存 的 概率 为 : 

1 
Pp = TF ota0sarii0Grornaeroos 一 0.669 
前 面 在 对 参数 进行 估计 时 ， 我 们 其 实 假设 了 Y = 1 的 概率 为 : 
a ePBotB1X1+"…+BnXn 
P(Y = 1|X;PB) = hgp(X) = g(B X) OE 


P= = 0.200 
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1 

由 此 , 我 们 便 可 以 利用 Logistic 回 归来 从 特征 学 习 中 得 出 一 个 非 0 即 1 的 分 类 模型 。 当 要 判 
别 一 个 新 来 的 特征 属于 哪个 类 时 ， 只 需求 hg(X) 即 可 ， 若 hg(X) 大 于 0.5 就 可 被 归 为 Y = 1 类 ， 反 
之 就 被 归 为 Y = 0 类 。 

下 面 尝试 对 Logistic 回 归 进 行 变型 。 首 先 ， 把 用 于 对 二 分 类 结果 进行 标记 的 标签 由 Y = 1 和 
Y = 0 替换 成 y = 1 和 y = -1， 然 后 将 BTX = po 十 BiXi 十 … 十 BnXn〈 注 意 这 里 相当 于 Xo = 1) 
中 的 B, 换 成 bp»， 最 后 再 把 剩余 的 部 分 忆 Xi 十 … 十 BX 替换 成 wTxX。 这 样 一 来 ， 就 得 到 了 
BTX = wTX 十 b 的 形式 。 

这 就 引出 了 所 谓 线性 分 类 器 的 概念 。 给 定 一 些 数据 点 ， 它 们 分 别 属于 两 个 不 同 的 类 ， 现 在 
要 找到 一 个 线性 分 类 器 把 这 些 数据 分 成 两 类 。 如 果 用 x 表示 数据 点 ， 用 y 表 示 类 别 (y 可 以 取 1 或 
者 -1， 分别 代表 两 个 不 同 的 类 ), 一 个 线性 分 类 器 的 学 习 目 标 便 是 要 在 n 维 的 数据 空间 中 找到 一 
个 超 平面 ， 这 个 超 平面 的 方程 可 以 表示 为 : 


P(Y = 0|X;P)=1—hs(X)=1- g(xX) = 


wi'x+b=0 

超 平面 是 直线 概念 在 高 维 上 的 拓展 ,通常 直线 的 一 般 方程 式 可 以 写 为 wjxi + wzx2z 十 b = 0， 
拓展 到 三 维 上 ， 就 得 到 平面 的 方程 wixi 十 Wzxz 十 Waxs 十 b = 0。 所 以 可 以 定义 高 维 上 的 超 平面 
为 Yj wixi 十 b = 0。 上 面 给 出 的 超 平面 方程 仅仅 是 采用 向 量 形式 来 描述 的 超 平面 方程 。 

在 使 用 Logistic 回 归来 进行 分 类 时 , 我 们 认为 车 hsp(X) > 0.5, 就 将 待 分 类 的 属性 归 为 Y = 1 类 ， 
反之 就 被 归 为 Y = 0 类 。 类 似 地 ， 此 时 我 们 希望 把 分 类 标签 换 成 y = 1 和 y = -1， 于 是 可 以 规定 
当 wTx 十 b > 0 时 ,hwp(X) = g(wTx 十 b) 就 映射 到 y = 1 的 类 别 , 否则 即 被 映射 到 y = 一 1 的 类 别 。 

接 下 来 就 以 最 简单 的 二 维 情况 为 例 来 说 明基 于 超 平面 的 线性 分 类 器 。 现 在 有 一 个 二 维 平面 ， 
平面 上 有 两 种 不 同 的 数据 ， 分 别 用 圆圈 和 方 框 来 表示 ， 如 图 14-2 所 示 。 由 于 这 些 数据 是 线性 可 
分 的 ， 所 以 可 以 用 一 条 直线 将 这 两 类 数据 分 开 ， 这 条 直线 就 相当 于 一 个 超 平 面 〈 因 为 在 二 维 的 
情况 下 超 平面 的 方程 就 是 一 个 直线 方程 )， 超 平面 一 边 的 数据 点 所 对 应 的 y 全 是 1， 另 一 边 所 对 
应 的 y 全 是 -1。 

这 个 基于 超 平面 的 分 类 模型 可 以 用 f(x) = wTx 十 b 来 描述 ， 当 f (x) 等于零 的 时 候 , x 便 是 位 
于 超 平 面 上 的 点 , 而 f(x) 大 于 零 的 点 对 应 y = 1 的 数据 点 ，f (x) 小 于 零 的 点 对 应 y = 一 1 的 点 ， 如 
图 14-3 所 示 。 
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图 14-2 ”二 维 情况 下 基于 超 平 面 的 线性 分 类 器 14-3 “分 类 模型 举例 


需要 说 明 的 是 ， 这 里 y 仅 仅 是 一 个 分 类 标签 ， 二 分 时 y 就 取 两 个 值 ， 严 格 来 说 这 两 个 值 是 可 
以 任意 取 的 ， 就 如 同 使 用 Logistic 回 归 进 行 分 类 时 ， 我 们 选取 的 标签 是 0 和 1 一 样 。 但 是 在 使 用 
支持 向 量 机 去 求解 二 分 类 问题 时 ， 其 目标 是 求 一 个 特征 空间 的 超 平 面 ， 而 被 超 平面 分 开 的 两 个 
类 , 它们 所 对 应 的 超 平面 的 函数 值 之 符号 应 该 是 相反 的 , 因此 为 了 使 问题 足够 简单 , 使 用 1 和 一 1 
就 成 为 理 所 应 当 的 选择 了 。 


14.2 ”线性 可 分 的 支持 向 量 机 


构建 线性 可 分 情况 下 的 支持 向 量 机 所 考虑 的 情况 最 为 简单 ， 我 们 就 以 此 为 始 展开 对 支持 向 
量 机 的 讨论 。 所 谓 线性 可 分 的 情况 ， 直 观 上 理解 ， 就 如 同 本 章 前 面 所 给 出 的 各 种 线性 分 类 器 模 
型 中 的 示例 一 样 ， 两 个 集合 之 间 是 彼此 没有 交 堆 的 。 在 这 种 情况 下 ， 通 常 一 个 简单 的 线性 分 类 
器 就 能 胜任 分 类 任务 。 

14.2.1 函数 距离 与 几何 距离 

我 们 已 经 看 到 ， 如 果 有 了 超 平 面 ， 二 分 类 问题 就 得 以 解决 。 那 么 超 平面 又 该 如 何 确定 呢 ? 
直观 上 来 看 ， 这 个 超 平面 应 该 是 既 能 将 两 类 数据 正确 划分 ， 又 能 使 其 自身 距离 两 边 的 数据 间隔 
最 大 的 直线 。 

在 超 平面 wIx 十 b = 0 确定 的 情况 下 ， 数 据 集中 的 某 一 点 x 到 该 超 平面 的 距离 可 以 通过 多 种 
方式 来 定义 。 再 次 强调 ， 这 里 x 表 示 一 个 向 量 ， 如 果 是 二 维 平面 的 话 ， 那 么 它 的 形式 应 该 是 
(xio, xzo) 这 样 的 坐标 。 

首先 ， 分 类 超 平 面 的 方程 可 以 写 为 h(x) = 0。 过 点 (xio, xzo) 做 一 个 与 hx) = 0 相 平 行 的 超 平 
面 ， 如 图 14-4 所 示 ， 那 么 这 个 与 分 类 超 平面 相 平 行 的 平面 方程 可 以 写成 f(x) = c， 其 中 c 0。 
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3 lwixio 十 wzxzo 十 四 |f(x)| 


二 VwE 二 wz lwll 











bX 


函数 距离 


{functional margin ) 


“P=1/0) -AGO 


X1 


14-4 ”函数 距离 与 几何 距离 


不 妨 考虑 用 |f(x) 一 h(x)| 来 定义 点 (xio,xz0) 到 h(x) 的 距离 。 而 且 又 因 h(x) = 0， 则 有 
|f(x) 一 h(x)| = |f(x)|。 通 过 观察 可 发 现 f(x) 的 值 与 分 类 标记 y 的 值 总 是 具有 相同 的 符号 ， 且 
ly| = 1， 所 以 可 以 用 二 者 乘积 的 形式 来 拿 掉 绝对 值 符号 。 由 此 便 引 出 了 函数 距离 (functional 
margin) 的 定义 : 


P= yo = y(wx+b) 

但 这 个 距离 定义 还 不 够 完美 。 从 解析 几何 的 角度 来 说 ，wixi + w2x2 十 b = 0 的 平行 线 可 以 具有 
类 似 wixi + waxz 十 b = c 的 形式 ， 即 h(x) 和 f(x) 具 有 相同 的 表达 式 (都 为 wTx 十 b)， 只 是 两 个 
超 平 面 方程 相差 等 式 右 端 的 一 个 常数 值 。 

另外 一 种 情况 ， 即 w 和 4b 都 等 比例 地 变化 时 ， 所 得 的 依然 是 平行 线 ， 例 如 2wixi 二 2w2x2 十 
2b = 2c。 但 这 时 如 果 使 用 函数 距离 的 定义 来 描述 点 到 超 平面 的 距离 ,结果 就 会 得 到 一 个 被 放大 
的 距离 ， 但 事实 上 ， 点 和 分 类 超 平 面 都 没有 移动 。 

于 是 应 当 考虑 采用 几何 距离 (geometrical margin) 来 描述 某 一 点 到 分 类 超 平面 的 距离 。 回 
忆 和 解析 几 何 中 点 到 直线 的 距离 公式 ,并 同样 用 与 分 类 标记 y 相 乘 的 方式 来 拿 掉 绝 对 值 符号 , 由 此 
引出 点 x 到 分 类 超 平面 的 几何 距离 为 : 

二 If (2) yf (x) 
YTw wll 

易 见 ， 几 何 距离 就 是 函数 距离 除 以 ||wl|。 
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14.2.2 最 大 间隔 分 类 器 

对 一 组 数据 点 进行 分 类 时 , 显然 当 超 平面 离 数据 点 的 “间隔 ” 越 大 , 分 类 的 结果 就 越 可 靠 。 
于 是 ， 为 了 使 得 分 类 结果 的 可 靠 程度 尽量 高 ， 需 要 让 所 选择 的 超 平面 能 够 最 大 化 这 个 “间隔 * 
值 。 

过 集合 的 一 点 并 使 整个 集合 在 其 一 侧 的 超 平面 ， 就 称 为 支持 超 平面 。 如 图 14-5 所 示 ， 被 圆 
图 标注 的 点 被 称 为 支持 向 量 ， 过 支持 向 量 并 使 整个 集合 在 其 一 侧 的 虚线 就 是 我 们 所 做 的 支持 超 
平面 。 后 面 会 解释 如 何 确定 支持 超 平面 。 但 现在 从 图 14-5 中 已 经 很 容易 看 出 ， 均 分 两 个 支持 超 
平面 间距 离 的 超 平面 就 应 当 是 最 终 被 确定 为 分 类 标准 的 超 平面 ， 或 称 最 大 间隔 分 类 器 。 现 在 的 
任务 就 变 成 了 寻找 支持 向 量 ， 然 后 构造 超 平面 。 注 意 我 们 最 终 的 目的 是 构造 分 类 超 平面 ， 而 不 
是 支持 超 平面 。 
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14-5 ”支持 超 平面 


前 面 已 经 得 出 结论 ， 几 何 距离 非常 适合 用 来 描述 一 点 到 分 类 超 平 面 的 距离 。 所 以 ， 这 里 要 
找 的 最 大 间隔 分 类 超 平 面 中 的 “间隔 ” 指 的 是 几何 距离 。 由 此 定义 最 大 间隔 分 类 器 (maximum 
margin classifier) 的 目标 函数 可 以 为 : 














1 
arg max!1—— min wix+b | 
8 人 in [人 )] 


w,b 





来 解读 一 下 这 个 目标 函数 。 现 在 训练 数据 集中 共有 n 个 点 ， 按 照 如 图 14-6 所 示 的 情况 ， 这 
里 n = 3。 这 3 个 点 分 别 是 4、B 和 C。 当 参数 w 和 b 确 定时 ， 显然 我 们 就 得 到 了 一 个 线性 分 类 器 ， 
比如 图 14-6 中 的 li。 现在 可 以 确定 数据 集中 各 个 点 到 直线 1 的 几何 距离 分 别 为 |441|、|8B1| 和 
ICCil。 然 后 我 们 选 其 中 几何 距离 最 小 的 那个 (从 图 14-6 中 来 看 应 该 是 |8B1|) 来 作为 衡量 数据 
集 到 该 直线 的 距离 。 然 后 我 们 又 希望 数据 集 到 分 类 器 的 距离 最 大 化 。 也 就 是 说 当 参 数 w 和 b 取 不 
同 值 时 ， 可 以 得 到 很 多 个 I!， 例 如 图 中 的 和 1!,。 那 么 到 底 该 选 哪 条 来 作为 最 终 的 分 类 器 呢 ? 显 
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各 和 要 光洁 着 相 __， 


然 应 该 选择 使 得 数据 集 到 分 类 器 的 间隔 最 大 的 那 条 直线 作为 分 类 器 。 从 图 14-6 中 可 以 看 出 ， 数 
据 集 中 的 所 有 点 到 4 的 几何 距离 最 短 的 应 该 是 B 点 , 到 ls 的 几何 距离 最 短 的 同样 是 8 点。 而 B 点 到 
的 距离 |BBi| 又 小 于 8B 点 到 1 的 距离 1BB2|， 所 以 选择 ls 作 为 最 终 的 最 大 间隔 分 类 器 就 是 更 合理 
的 。 而 且 在 这 个 过 程 中 ,其 实 也 是 选 定 了 B 来 作为 支持 向 量 ,。 注意 ,支持 向 量 不 一 定 只 有 一 个 ， 

也 有 可 能 是 多 个 ， 即 如 果 一 些 点 达到 最 大 间隔 分 类 器 的 距离 都 是 相等 的 ， 那 么 它们 就 会 同时 成 
为 支持 向 量 。 




















图 14-6 最 大 间隔 分 类 器 
事实 上 ， 我 们 通常 会 令 支 持 超 平面 (就 是 过 支持 向 量 且 与 最 大 间隔 分 类 器 平行 的 超 平面 ) 




















到 最 大 间隔 分 类 超 平面 的 函数 距离 为 7， 如 图 14-3 所 示 。 这 里 需要 理解 的 地 方 主 要 有 两 个 。 第 
一 ， 支 持 超 平面 到 最 大 间隔 分 类 超 平面 的 函数 距离 可 以 通过 线性 变换 而 得 到 任意 值 。 继 续 使 用 
前 面 曾经 用 过 的 记 法 ， 我 们 知道 h(x) = wTx +D = 0 就 是 最 大 间隔 分 类 超 平面 的 方程 ， 而 
f(x) = wx 十 b= c 就 是 支持 超 平面 的 方程 。 这 两 个 超 平面 之 间 的 函数 距离 就 是 yf (x) = yc。 而 
我 们 前 面 也 曾经 演示 过 ， 通 过 线性 变换 ，c 的 取 值 并 不 固定 。 例如， 可 以 将 所 有 的 参数 都 放大 两 
倍 ， 得 到 jh'(x) = 2wTx 二 2b=0， 因 为 f'(x) 只 要 保证 是 与 k(x) 平 行 的 即 可 ， 那 么 显然 
f(x) = 2wix 十 2b = 2c, 于 是 两 个 超 平面 间 的 函数 距离 就 变 成 了 yf"(x) = 2yc。 可 见 这 个 函数 
距离 通过 线性 变换 其 实 可 以 是 任意 值 ， 而 此 处 就 选 定 1 作为 它们 的 函数 距离 。 第 二 ， 之 所 以 选 
择 1 作为 两 个 超 平面 间 的 函数 距离 ， 主 要 是 为 了 方便 后 续 的 推导 和 优化 。 

若 选 定 1 作为 支持 超 平面 到 最 大 间隔 分 类 超 平 面 的 函数 距离 ， 其 实 就 指明 了 支持 超 平面 的 
方程 应 为 f(x) = wTx 十 b= 1 或 者 f(x) = wix 十 b = 一 1。 而 数据 集中 除了 支持 向 量 以 外 的 其 他 
点 所 确定 的 超 平面 到 最 大 间隔 分 类 超 平面 的 函数 距离 将 都 是 大 于 1 的 ， 即 前 面 给 出 的 目标 函数 
还 需 满 足下 面 的 这 个 条 件 : 

































































yi(wixit+b)z1, i=1,2,.…,n 
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然 它 的 最 小 值 就 是 1， 所 以 原来 的 目标 函数 就 得 到 了 下 面 这 个 简化 的 表达 式 : 


max 一 一 一 
llwll 


这 表示 求解 最 大 间隔 分 类 超 平面 的 过 程 就 是 最 大 化 支撑 超 平面 到 分 类 超 平面 两 者 间 几 何 距离 的 
过 程 。 
14.2.3 拉 格 朗 日 乘 数 法 

在 得 到 目标 函数 之 后 ， 分 类 超 平面 的 建立 过 程 就 转化 成 了 一 个 求 极 值 的 最 优化 问题 。 在 继 
续 后 面 的 推导 之 前 ， 这 里 先 给 出 一 些 必要 的 数学 基础 。 首 先 给 出 几 个 后 面 会 用 到 的 定义 。 


定义 : 设 M 是 线性 空间 E 中 的 一 个 集合 ， 如 果 对 于 任意 的 x,y E M 且 满足 1 上 + 由 = 1 的 1>0、 
AH>0， 均 有 ; 

















4X 十 py EM 

则 称 M 是 有 中 的 凸 集 (Convex Set)。 

上 面 的 公式 亦 可 以 改写 为 : 

Ax+(1—AyeMm, Ae[0,1] 

直观 上 来 说 ， 凸 集 是 一 个 点 集合 ， 且 其 中 每 两 点 之 间 的 连 线 点 仍然 落 在 该 点 集合 中 。 例 如 ， 
间 是 实数 的 凸 集 。 

有 一 个 定义 在 某 向 量 空间 中 凸 子 集 X《〈 区 间 ) 上 的 实 值 函数 f:X 一 RR， 而 且 对 于 凸 子 集 X 中 
任意 两 个 向 量 x1 和 x，。， 以 及 存在 的 任意 有 理 数 9 € (0,1)， 都 有 : 

flOx1 + (1—0)x2]<0f (x1) + (1— 0)f(x2) 

则 称 f 是 一 个 是 函数。 如 果 f 连 续 ， 那 么 6 可 以 改 为 (0,1) 中 的 实数 。 此 外 ， 如 果 x1 尖 xz， 并 且 将 
上 式 中 的 “<g” 改 成 “<”， 则 称 f 是 一 个 严格 的 凸 函 数 。 

如 果 这 里 的 凸 子 集 X 就 是 指 某 个 区 间 ， 而 f 是 定义 在 该 区 间 上 的 一 个 凸 函数 ，p1 和 7p; 为 该 区 
间 上 的 任意 两 点 。 如 图 14-7 所 示 为 一 个 上 屿 函数 示意 图 ， 结 合 图 形 ， 可 以 分 析 在 凸 函数 的 定义 式 
中 ，6pi + (1 一 9)p2 其 实 就 是 p1 和 ps 的 加 权 平 均 。 因 此 ，f[8pi + (1 一 9)pz] 是 位 于 函数 f 曲 线 上 


介 于 pi 和 pz 区 间 内 的 一 点 。 而 9f (pi1) 十 (1 一 9)f(pz) 则 是 f(p1) 和 f (pz) 的 加 权 平 均 ， 也 就 是 以 
(pi1) 和 f (pz) 为 端点 的 一 条 直线 段 上 的 一 点 。 


xX| 
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Pa) 
Of (piH(1-0)7 (p,) 







Jepit(l-ep] |- - --. 
JPDD |-- 





pi 





pi+(1-0)p» 
图 14-7 凸 函数 示意 图 
通常 ， 我 们 需要 求解 的 最 优化 问题 主要 包含 有 3 类 。 首 先是 无 约束 优化 问题 ， 可 以 写 为 : 
min f(x) 
对 于 这 一 类 的 优化 问题 ， 通 常 的 解法 就 是 运用 费 马 定理 ， 即 使 用 求 取 函 数 f(x) 的 导数 ， 然 
后 令 其 为 零 ， 可 以 求 得 候选 最 优 值 ， 再 在 这 些 候选 值 中 进行 验证 ;而且 如 果 f(x) 是 是 函数， 可 
以 保证 所 求 值 就 是 最 优 解 。 
其 次 是 有 等 式 约束 的 优化 问题 ， 可 以 写 为 : 
min f (x) 
S.t: hi(x) 二"0, i = 本 2 和 


对 于 此 类 的 优化 问题 ， 常 常 使 用 的 方法 就 是 拉 格 朗 上 日 乘 子 法 ， 即 用 一 个 系数 4i 把 等 式 约 束 
hi(x) 和 目标 函数 f(x) 组 合成 为 一 个 新 式 子 ， 称 为 拉 格 朗 日 函数 ， 而 系数 Xi 称 为 拉 格 朗 日 乘 子 。 
即 写成 如 下 形式 : 


LN) = FoD + >》 Nu 


i=1 
然后 通过 拉 格 朗 日 函数 对 各 个 变量 求 导 ， 令 其 为 零 ， 可 以 求 得 候选 值 集合 ， 然 后 验证 求 得 最 优 
值 。 


最 后 是 有 不 等 式 约束 的 优化 问题 ， 可 以 写 为 : 
min f (x) 
st. hi(x)=0, i=12,.…,n 
gi(x)<0, i=1,2,.,k 
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统一 的 形式 能 够 简化 推导 过 程 中 不 必要 的 复杂 性 。 而 其 他 的 形式 都 可 以 归 约 到 这 样 的 标准 
形式 。 例 如 ， 假 设 目 标 函 数 是 max f(x)， 那 么 就 可 以 将 其 转化 为 -min f(x)。 

虽然 约束 条 件 能 够 帮助 我 们 减 小 搜索 空间 ， 但 如 果 约 束 条 件 本 身 就 具有 比较 复杂 的 形式 ， 
那么 仍然 会 显得 有 些 麻 烦 。 于 是 ， 我 们 希望 把 带 有 不 等 式 约束 的 优化 问题 转化 为 仅 有 等 式 约束 
的 优化 问题 。 为 此 定义 广义 拉 格 朗 日 函数 如 下 : 


天 n 
LON) = f+ 2 MgiCD + 2 vihi() 


一 些 系数 把 约束 条 件 和 目标 函数 结合 在 了 一 起 。 现 在 我 们 令 ; 
ZK 一 max L(x, 4,v) 


注意 上 式 中 ，4>0 的 意思 是 向 量 4 的 每 一 个 元 素 大 都 是 非 负 的 。 函 数 z(x) 对 于 满足 原始 问题 约束 
条 件 的 那些 x 来 说 ， 其 值 都 等 于 f(x) 。 这 很 容易 验证 ， 因 为 满足 约束 条 件 的 x 会 使 得 hi(x) = 0， 
因此 最 后 一 项 就 消 掉 了 。 而 gi(x)<0， 并 且 我 们 要 求 4>0， 于 是 Xigi(x)<0， 那 么 最 大 值 只 能 在 
它们 都 取 零 的 时 候 得 到 , 此 时 就 只 剩 下 f(x) 了。 所 以 我 们 知道 对 于 满足 约束 条 件 的 那些 x 来 说 ， 
必然 有 f(x) = z(x)。 这 样 一 来 ， 原 始 的 带 约束 的 优化 问题 其 实 等 价 于 如 下 的 无 约束 优化 问题 : 


min z(x) 
p 3 


如 果 原 始 问题 有 最 优 值 ， 那 么 肯定 是 在 满足 约束 条 件 的 某 个 x* 取 得 ， DO 
条 件 的 x，z(x) 和 f(x) 都 是 相等 的 。 至 于 那些 不 满足 约束 条 件 的 x， 原 始 问题 是 无 法 取 到 的 ， 
则 极 值 问题 无 解 。 很 容易 验证 对 于 这 些 不 满足 约束 条 件 的 x 有 z(x) 一 oo， 这 也 和 原始 问题 是 一 
致 的 ， 因 为 求 最 小 值得 到 无 穷 大 可 以 和 “无 解 ” 看 作 等 同 的 。 

到 此 为 止 ， 我们 已 经 成 功 地 把 带 不 等 式 约束 的 优化 问题 转化 为 了 仅 有 等 式 约束 的 问题 。 而 
这 个 过 程 其 实 只 是 一 个 形式 上 的 重 写 ， 并 没有 什么 本 质 上 的 改变 。 我 们 只 是 把 原来 的 问题 

过 拉 格 朗 日 方程 写成 了 如 下 形式 : 


min Jax 有 
上 述 这 个 问题 (或 者 说 最 开始 那个 带 不 等 式 约束 的 优化 问题 ) 也 称 作 原 始 问 题 (Primal Problem )。 


相对 应 的 还 有 一 个 对 偶 问 题 (Dual Problem)， 其 形式 与 之 非常 类 似 ， 只 是 把 min 和 max 交 换 了 一 
下 ， 即 : 


max min L(x, 4,v) 
交换 之 后 的 对 侦 问 题 和 原来 的 原始 问题 并 不 一 定 等 价 。 为 了 进一步 分 析 这 个 问题 ， 和 刚才 
的 z(x) 类 似 ， 我 们 也 用 一 个 记号 来 表示 内 层 的 这 个 函数 ， 记 为 : 
y(4,v) = min L(x, NV) 
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并 称 y(4,v) 为 拉 格 朗 日 对 偶 函 数 。 该 函数 的 一 个 重要 性 质 即 它 是 原始 问题 的 一 个 下 界 。 换言之， 
如 果 原 始 问题 的 最 小 值 记 为 p”， 那 么 对 于 所 有 的 4 之 0 和 uv 来 说 ， 都 有 : 


y(4,v)<p’ 
因为 对 于 极 值 点 (实际 上 包括 所 有 满足 约束 条 件 的 点 〉 x*， 注 意 到 4>0， 总 是 有 : 


k n 
放 Aigi(x’)+ 六 vihi(x’) <0 
i=1 t= 


因此 : 
k n 
LHD) = fe) + YAgix") + Dvihilx") <f x") 
i=1 i=1 
进而 有 : 
yu = min L(x,n, U) <L(x’,4,v)<f x’) = p" 
那么 也 就 是 说 


中 y(4,v) 


实际 上 就 是 原始 问题 的 下 确 界 。 现 在 记 对 侦 问 题 的 最 优 解 为 4*+， 那 么 根据 上 述 推 导 就 可 以 得 出 
如 下 性 质 : 
d*<p’* 

这 个 性 质 叫 作 弱 对 偶 性 (Weak Duality)， 对 于 所 有 的 优化 问题 都 成 立 。 其 中 p* 一 d* 被 称 作对 侦 
性 间隔 (Duality Gap)。 需 要 注意 的 是 , 无 论 原始 是 什么 形式 , 对 偶 问题 总 是 一 个 凸 优 化 的 问题 ， 
即 如 果 它 的 极 值 存在 的 话 ， 则 必 是 唯一 的 。 这 样 一 来 ， 对 于 那些 难以 求解 的 原始 问题 ， 我 们 可 
以 设法 找 出 它 的 对 偶 问 题 ， 再 通过 优化 这 个 对 偶 问 题 来 得 到 原始 问题 的 一 个 下 界 估计 。 或 者 说 
我 们 甚至 都 不 用 去 优化 这 个 对 偶 问 题 ， 而 是 〈 通 过 某 些 方法 ， 例 如 随机 ) 选取 一 些 1>0 和 vv， 带 
到 y(4,v) 中 ， 这 样 也 会 得 到 一 些 下 界 〈 但 不 一 定 是 下 确 界 )。 

另 一 方面 , 读者 应 该 很 自然 地 会 想到 既然 有 弱 对 偶 性 , 就 势必 会 有 强 对 偶 性 (Strong Duality )。 
所 谓 强 对 偶 性 ， 就 是 : 


人 一 


在 强 对 偶 性 成 立 的 情况 下 ， 可 以 通过 求解 对 偶 问题 来 优化 原始 问题 。 后 面 我 们 会 看 到 在 支持 向 
量 机 的 推导 中 就 是 这 样 操作 的 。 当 然 并 不 是 所 有 的 问题 都 能 满足 强 对 偶 性 。 


为 了 对 问题 做 进一步 的 分 析 ， 不 妨 来 看 看 强 对 偶 性 成 立时 的 一 些 性 质 。 假 设 达 和 (4 /后 ) 分 
别 是 原始 问题 和 对 偶 问题 的 极 值 点 ， 相 应 的 极 值 为 p* 和 d*。 如 果 d* = p*， 此 时 则 有 : 
wwaibbt.com OO00000 


i 





k n 
re) yee) = mn + Ra + Yo vi 
i=t i=1 


k n 
SF) + DY Ngix') + 2》 vihilx") <F Ox) 
Es t=1 
由 于 两 头 是 相等 的 ， 所 以 这 一 系列 的 式 子 里 的 不 等 号 全 部 都 可 以 换 成 等 号 。 根 据 第 1 个 不 等 号 
我 们 可 以 得 到 x* 是 C(x,,v") 的 一 个 极 值 点 ， 由 此 可 以 知道 Lx, 让 ,wv") 在 x* 处 的 梯度 应 该 等 于 0， 
亦 即 : 


k n 
Vf (x) + > 对 vagi(xz9] 十 py uxVhi(z9 =0 
i=1 i=1 


此 外 ， 由 第 2 个 不 等 式 ， 又 显然 检 gi(x*) 都 是 非 正 的 ， 因 此 我 们 可 以 得 到 ;: 
Migi(x’*) = 0, i = 1,2,.%,k 
另外 , 如 果 必 > 0, 那么 必定 有 gi(x*) = 0; 反 过 来 , 如 果 g;(x*) < 0, 那么 可 以 得 到 履 = 0。 这 
个 条 件 在 后 续 关 于 支持 向 量 机 的 讨论 中 将 被 用 来 证 明 那 些 非 支 持 向 量 (对 应 于 gi(x*) < 0) 所 对 
应 的 系数 是 为 零 的 。 再 将 其 他 一 些 显而易见 的 条 件 写 到 一 起 ， 便 得 出 了 所 谓 的 KKT 
(Karush-Kuhn-Tucker) 条 件 : 





hi(x’) = 0, 2 

gi(x <0， 二 并 2 

A>0, i = 1,2,.,k 
Migi(x’) = 0, i= 1,2,°",k 


k nn 
Vf(x’)+ 区 AiVgi(Xx”)+ 六 viVhi(x*)= 0 
i=1 i=1 


任何 满足 强 对 偶 性 的 问题 都 满足 KKT 条 件 ， 换 名 话说 ， 这 是 强 对 偶 性 的 一 个 必要 条 件 。 不 
过 ， 当 原始 问题 是 凸 优化 问题 的 时 候 ，KKT 就 可 以 升级 为 充 要 条 件 。 换 句 话 说 ， 如 果 原 始 问题 
是 一 个 凸 优 化 问题 ， 且 存在 x* 和 (24*,v*) 满 足 KKT 条 件 ， 那 么 它们 分 别 是 原始 问题 和 对 偶 问 题 
的 极 值 点 并 且 强 对 偶 性 成 立 。 其 证 明 也 比较 简单 ， 首 先 ， 如 果 原 始 问题 是 凸 优 化 问题 的 话 ， 
y(,v) = min L(x, 4,v) 


的 求解 对 每 一 组 确定 的 (4,v) 来 说 也 是 一 个 凸 优 化 问题 , 由 KKT 条 件 的 最 后 一 个 式 子 , 知道 x* 是 
minx L(x,W,v*) 的 极 值 点 (如 果 不 是 上 同 优 化 问题 ， 则 不 一 定 能 推出 来 )， 亦 即 : 
y(W,v*) = min L(x, 4°,v") = 二 [和 下面” 
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k n 
= fe) + Rg") + vihilx") = fx") 
i=1 i=1 


最 后 一 个 式 子 是 根据 KKT 条 件 的 第 2 个 和 第 4 个 条 件 得 到 。 由 于 y 是 f 的 下 界 , 如 此 一 来 ， 
便 证 明了 对 偶 性 间隔 为 零 ， 即 强 对 偶 性 成 立 。 
14.2.4 “对偶 问 题 的 求解 

接着 考虑 之 前 得 到 的 目标 函数 


1 
max 一 一 一 
lwll 


S.t. ywixit+b)z1, i=1,2,.…,n 
根据 14.2.3 节 讨 论 的 内 容 ， 现 在 设法 将 上 式 转换 为 标准 形式 ， 即 将 求 最 大 值 转换 为 求 最 小 
值 。 由 于 求 1/|Iwl| 的 最 大 值 与 求 ||wl|?/2 的 最 小 值 等 价 ， 所 以 上 述 目 标 函 数 就 等 价 于 : 
min3 llwll? 
St. yi(wixit+b)21, i= 12,.…,n 
现在 的 目标 函数 是 二 次 的 ， 约 束 条 件 是 线性 的 ， 所 以 它 是 一 个 凸 二 次 规划 问题 。 更 重要 的 
是 ， 由 于 这 个 问题 的 特殊 结构 ， 还 可 以 通过 拉 格 明日 对 偶 性 将 原始 问题 的 求解 变换 到 对 偶 问 题 
的 求解 ， 从 而 得 到 等 价 的 最 优 解 。 这 就 是 线性 可 分 条 件 下 支持 向 量 机 的 对 偶 算 法 ， 这 样 做 的 优 


点 在 于 : 一 者 对 偶 问 题 往 往 更 容易 求解 ; 二 者 可 以 很 自然 地 引入 核 函 数 ， 进 而 推广 到 非 线性 分 
类 问题 。 

根据 14.2.3 中 所 讲 的 方法 ， 给 每 个 约束 条 件 加 上 一 个 拉 格 朗 日 乘 子 w， 定 义 广义 拉 格 衣 日 
函数 : 


k 
1 
L(w,b,a) = 7 lIwll? — > ailyi(w'xi+b)—1] 
i=1 


上 述 问题 可 以 改写 成 : 


by 
可 以 验证 原始 问题 是 满足 KKT 条 件 的 ， 所 以 原始 问题 与 下 列 对 偶 问 题 等 价 


max min L(w, b,a) = d* 
Qi20 w,b 


易 知 ，p’* 表 示 原 始 问 题 的 最 优 值 ， 且 和 最 初 的 问题 是 等 价 的 。 如 果 直 接 求解 ， 那 么 一 上 来 
便 得 面 对 w 和 b 两 个 参数 ， 而 Qi 又 是 不 等 式 约束 ， 这 个 求解 过 程 比较 麻烦 。 在 满足 KKT 条 件 的 
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情况 下 ， 所 以 可 以 将 其 转换 到 与 之 等 价 的 对 偶 问题 ， 问 题 求解 的 复杂 性 被 大 大 降低 了 。 
下 面 来 求解 对 侦 问 题 。 首 先 固定 a， 要 让 L 关 于 w 和 b 取 最 小 ， 则 分 别 对 二 者 求 偏 导 数 ， 并 


令 偏 导 数 等 于 零 ， 即 

k 

oL 

=0>) oy 二 W 
i=1 

BC 

5 一 [0 一 > Qiyi 三 0 
i=1 


将 上 述 结 果 带 入 之 前 的 C， 则 有 : 


k 
1 
LOw,b,a) =31wl — Daibi(wixi +b) —1] 
= 


ti=1 i=1 i=1 

k k k 
=iw 了 QiYiXi [一 > yw mh et 

i=1 i=1 

k k 

= 六 wo) >.° Qiyixi—b:0+ > Qi 

{= i=1 i=1 

1 k k 
ay QiyiXi 十 2 Qi = Ci 一 QiQ YiYj (xi)T Xj 
i=1 i=1 = i=1 ii 


易 见 ， 此 时 的 拉 格 朗 日 函数 只 包含 了 一 个 变量 ， 也 就 是 a;， 求 出 它 便 能 求 出 w 和 b。 确 定 了 
w 和 b， 就 可 以 将 它们 带 回 原 式 子 然 后 再 关于 a 求 最 终 表达 式 的 极 大 。 


nag min L(w,b,a) = max > 了 sy iQ YY Xe) TX 


tj=1 
k 
Sb Da Qiyi = 0, Qi 过 0 三 1,2,%,n 


将 上 面 的 式 子 稍 加 改造 ， 就 可 以 得 到 下 面 这 个 新 的 目标 函数 ， 而 且 二 者 是 完全 等 价 的 。 更 
重要 的 ， 这 是 一 个 标准 的 、 仅 包含 有 等 式 约束 的 优化 问题 。 
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k 
1 
min 7 >》 QiQ ViVi Xe) x = 六 Qi 


k k 
ij=1 i=1 i,j=1 i=1 


k 
1 
| 一 min 7 六 QiQj yy (Xi ® xj) 一 2 
k 
关公 ut = 0， Qi20,i= 1,2,.…,n 
由 此 我 们 可 以 很 容易 地 求 出 最 优 解 a*， 求 出 该 值 之 后 将 其 带 入 : 


k 
六 于 
W. 到 2 Qi ViXi 
i=1 


就 能 求 出 w， 注 意 x; 和 y; 都 是 训练 数据 所 给 定 的 已 知 信息 。 在 得 到 w* 后 ， 也 就 可 以 由 
b* = yi— (Ww') x 
来 求 得 9， 其 中 x; 为 任意 选 定 的 支持 向 量 。 


下 面 举 一 个 简单 的 例子 来 演示 分 类 超 平 面 的 确定 过 程 。 给 定 平面 上 3 个 数据 点 ， 其 中 标记 
为 +1 的 数据 点 为 x; = (3,3)、x2 = (4,3)， 标 记 为 -1 的 数据 点 为 x3 = (1,1)。 求 线性 可 分 支持 向 
量 机 ， 也 就 是 最 终 的 分 类 超 平面 (直线 )。 


由 题 意 可 知 目标 函数 为 
min (a), St Wi tay = a= 0; B01,23 
其 中 ， 
1 这 3 
f(a) = 了 > aiQjyiyj(Xi 入) Ci 
ij=1 i=1 
3 
一 7(18at + 2502 + 2a2 + 420i02 一 12aias 一 14aza3s) 一 ai 一 aa 一 as 
然后 ， 将 as = ai + az 带 入 目标 函数 ， 得 到 一 个 关于 ai 和 wz 的 函数 : 
s(a1,02) = 4az 十 二 上 + 10g102 一 20i — 203 
对 ai 和 wz 求 偏 导 数 并 令 其 为 零 , 易 知 s(ai, az) 在 点 (1.5, 一 1) 处 取 极 值 ,而 该 点 不 满足 qa;>0 的 
约束 条 件 ， 于 是 可 以 推断 最 小 值 在 边界 上 达到 。 经 计算 当 wi = 0 时 ，s(ai = 0, aa = 2/13) = 
一 0.1538; 当 w2 = 0 时 ，s(ai = 1/4,a = 0) = -0.25。 于 是 s(ci az) 在 wi = 1/4、az = 0 时 取 


得 最 小 值 ， 此 时 亦 可 算出 as 三 Q1 十 az2 二 1/4。 因为 wx 和 ws 不 等 于 零 ， 所 以 对 应 的 点 x1 和 xs 就 应 
该 是 支持 向 量 。 


进而 可 以 求 得 : 
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3 
即 w; = ws = 0.5。 进 而 有 : 

b* = 1— (ww2): (3,3) = 一 2 
因此 最 大 间隔 分 类 超 平面 为 : 


1 1 
2 


分 类 决策 函数 为 : 
1 1 
f (x) = sign (5 十 可 和 2 一 2) 
最 终 构建 的 支持 向 量 机 如 图 14-8 所 示 。 可 见 xi = (3,3) 和 xs = (1,1) 是 支持 向 量 ， 分 别 过 两 


点 所 做 的 直线 就 是 支持 超 平面 。 与 两 个 支持 超 平面 平行 并 位 于 二 者 正中 位 置 的 就 是 最 终 确 定 的 
最 大 间隔 分 类 超 平面 。 














md WS 
图 14-8 ”最 大 间隔 分 类 器 
当 要 利用 建立 起 来 的 支持 向 量 机 对 一 个 数据 点 进行 分 类 时 ， 实 际 上 是 通过 把 点 xj 带 入 到 
f(xj) = wrxj 十 b， 并 算出 结果 , 再 根据 结果 的 正 负 号 来 进行 类 别 划 分 的 。 而 前 面 的 推导 中 我 们 
得 到 : 





因此 分 类 函数 为 : 
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k T 天 k 
f(x) = (> oo Xj+b = (> co) Xj+b= > atyi(xixj) +b 


i=1 i=1 i=1 
可 见 ， 对 于 新 点 的 预测 ， 只 需要 计算 它 与 训练 数据 点 的 内 积 即 可 ， 这 一 点 对 后 面 使 用 
Kernel 进行 非 线 性 推广 至 关 重要 。 此 外 ， 所 谓 支 持 向 量 也 在 这 里 显示 出 来 一 一 事实 上 ， 所 有 非 
支持 向 量 所 对 应 的 系数 都 是 等 于 零 的 ， 因 此 对 于 新 点 的 内 积 计算 实际 上 只 要 针对 少量 的 “支持 
向 量 ” 而 不 是 所 有 的 训练 数据 即 可 。 


为 什么 非 支 持 向 量 对 应 的 系数 等 于 零 呢 ? 直观 上 来 理解 的 话 ， 就 是 那些 非 支持 向 量 对 超 平 
面 是 没有 影响 的 , 由 于 分 类 完全 由 超 平面 决定 , 所 以 这 些 无 关 的 点 并 不 会 参与 分 类 问题 的 计算 ， 
因而 也 就 不 会 产生 任何 影响 了 。 如 果 要 从 理论 上 介绍 这 件 事 ， 不 妨 回想 一 下 前 面 得 到 的 拉 格 朗 
日 函数 : 








k 
Llw,b, 0m) =3wl — Dba tb) -1 
注意 到 如 果 闻 是 支持 向 量 的 话 ， 因 为 支持 向 量 的 函数 距离 等 于 1， 所 以 上 式 中 求 和 符号 后 面 
的 部 分 就 是 等 于 零 的 。 而 对 于 非 支持 向 量 来 说 ， 函 数 距离 会 大 于 1， 因 此 上 式 中 求 和 符号 后 面 的 
部 分 就 是 大 于 零 的 。 而 又 是 非 负 的 ， 为 了 满足 最 大 化 ，w 必 须 等 于 零 。 


14.3 ”松弛 因子 与 软 间隔 模型 


前 面 讨论 的 支持 向 量 机 所 能 解决 的 问题 仍然 比较 简单 ， 因 为 我 们 假定 数据 集 本 身 是 线性 可 
分 的 。 在 这 种 情况 下 ， 我 们 要 求 待 分 类 的 两 个 数据 集 之 间 没 有 彼此 交 个 。 现 在 考虑 存在 噪声 的 
情况 。 如 图 14-9 所 示 ， 其 实 很 难 找 到 一 个 分 割 超 平 面 来 将 两 个 数据 集 准确 分 开 。 究 其 原因 ， 主 
要 是 图 14-9 中 存在 某 些 偏离 正常 位 置 很 远 的 数据 点 。 例 如 ， 方 块 型 x; 明 显 落 入 了 圆圈 型 数据 集 
的 范围 内 。 像 这 种 偏离 正常 位 置 较 远 的 点 ， 我 们 称 之 为 异常 点 (Outlier)， 它 有 可 能 是 采集 训练 
样本 的 时 候 的 噪声 , 也 有 可 能 是 数据 录入 时 被 错误 标记 的 观察 值 。 通常 , 如 果 我 们 直接 忽略 它 ， 
原来 的 分 隔 超 平面 表现 仍然 是 可 以 被 接受 的 。 但 如 果真 的 存在 有 异常 点 ， 则 结果 要 么 是 导致 分 
类 间隔 被 压缩 得 异常 狭窄 ， 要 么 是 找 不 到 合适 的 超 平面 来 对 数据 进行 分 类 。 

为 了 处 理 这 种 情况 ， 我 们 允许 数据 点 在 一 定 程度 上 偏离 超 平面 。 也 就 是 允许 一 些 点 跑 到 两 
个 支持 超 平面 之 间 ， 此 时 它们 到 分 类 面 的 “函数 间隔 ”将 会 小 于 1。 如 图 14-9 所 示 ， 蜡 常 点 xi 到 
其 对 应 的 分 类 超 平面 的 函数 间隔 是 &， 同 时 数据 点 x 到 其 对 应 的 分 类 超 平面 的 函数 间隔 是 。 这 
里 的 8 就 是 我 们 引入 的 松弛 因子 ， 它 的 作用 是 允许 样本 点 在 超 平 面 之 间 的 一 些 相对 偏 移 。 
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ei 





图 14-9 松弛 因子 


所 以 考虑 到 异常 点 存在 的 可 能 性 ， 约 束 条 件 就 变 成 了 : 
yi(w'xi +b)>1— 6&, $0, i= 1,2,.…,n 


当然 ， 如 果 人 允许 所 任意 大 的 话 ， 那 么 任意 的 超 平面 都 是 符合 条 件 的 了 。 所 以 ， 需 要 在 原来 
的 目标 函数 后 面 加 上 一 项 ， 使 得 这 些 &; 的 总 和 也 要 最 小 : 


min3 lwl? + CY 8 
i=1 

引入 松弛 因子 后 ， 就 允许 某 些 样本 点 到 分 类 超 平面 的 函数 间隔 小 于 1， 即 在 最 大 间隔 区 间 里 面 ， 
比如 图 14.9 中 的 或 者 函数 间隔 是 负数 ， 即 样本 点 在 对 方 的 区 域 中 ， 比 如 图 14-9 中 的 。 而 
放松 限制 条 件 后 ， 我 们 需要 重新 调整 目标 函数 ， 以 对 离 群 点 进行 处 罚 ， 上 述 目 标 函数 后 面 加 上 
的 第 2 项 就 表示 离 群 点 越 多 ， 目 标 函数 值 越 大 ， 而 我 们 要 求 的 是 尽 可 能 小 的 目标 函数 值 。 这 里 
的 参数 C 是 离 群 点 的 权重 ，C 越 大 表明 离 群 点 对 目标 函数 影响 越 大 , 也 就 是 越 不 希望 看 到 离 群 点。 
这 时 候 ， 间 珊 也 会 很 小 。 我 们 看 到 ， 目 标 数 控制 了 离 群 点 的 数目 和 程度 ， 倍 大 部 分 样本 点 人 
然 遵守 限制 条 件 。 注 意 ， 其 中 # 是 需要 优化 的 变量 之 一 )， 而 5 是 一 个 事先 确定 好 的 党 
整地 写 出 来 是 这 个 样子 ， 





n 
1 
min= lwll? + Ey &, 
i=1 


s.t. yi(wixi +b)>1— é&,, 所 过 0 i 1,2,.… ,nN 
再 用 之 前 的 方法 将 限制 或 约束 条 件 加 入 到 目标 函数 中 ， 得 到 新 的 拉 格 朗 日 函数 如 下 : 
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1 n n n 
Cw bias =3w tC HD yw tbh) 1+ m6 
i=1 


i=1 1 
同 前 面 介绍 的 方法 类 似 ， 此 处 先 让 L 对 w、b 和 最 小 化 ， 可 得 : 


BC 
元 =0= Yay 三 W 
i=1 


oc 9 
元 =0= 》aox=0 
i=1 


EE 三 :区 三 :0 E12 
06 ee Qi Ki ™— Vy a 二 Nn 
将 w 带 回 C 并 进行 化 简 得 到 和 原来 一 样 的 目标 函数 : 
n n 
1 让 
ox » Wy =— 了 QiQ YY Xi Xi 
i=1 Lj=1 





此 外 ， 由 于 我 们 同时 得 到 C 一 wi 一 点 = 0， 并 且 有 7>0《〈 注 意 这 是 作为 拉 格 朗 日 乘 数 的 条 
件 )， 因 此 有 wi& 和 C， 所 以 完整 的 对 偶 问题 应 该 写成 : 


n 


n 
1 下 
max (二 一 了 GiQJ Xi Xi 
ti=1 
k 





ij=1 


St: Qiyi = 0, OagC,i = 12,%,n 
y 
在 这 种 情况 下 构建 的 支持 向 量 机 对 异常 点 有 一 定 的 容忍 程度 ， 我 们 也 称 这 种 模型 为 软 间 隔 
模型 。 显 然 ，14.2 节 中 介绍 的 (没有 引入 松弛 因子 的 ) 模型 就 是 硬 间隔 模型 。 把 当前 得 到 的 结 
果 与 硬 间隔 时 的 结果 进行 对 比 ， 可 以 看 到 唯一 的 区 别 就 是 现在 限制 条 件 上 多 了 一 个 上 限 C。 


14.4 非 线 性 支持 向 量 机 方法 


但 是 到 目前 为 止 , 我 们 的 支持 向 量 机 的 适应 性 还 比较 弱 , 只 能 处 理 线性 可 分 的 情况 , 不 过 ， 
己 经 是 一 件 非常 容易 的 事情 了 。 


rr 


在 得 到 了 对 侦 形 式 之 后 ， 通 过 Kernel 推广 到 非 线 性 的 情况 其 实 


14.4.1 ”从 更 高 维度 上 分 类 
来 看 一 个 到 目前 为 止 我 们 的 支持 向 量 机 仍然 无 法 处 理 的 问题 。 考 察 图 14-10 所 给 出 的 二 维 
数据 集 ， 它 包含 方块 (标记 为 y = +1) 和 圆圈 (标记 为 y = 一 1)。 其 中 所 有 的 圆圈 都 聚集 在 图 
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中 所 绘制 的 圆周 范围 内 ， 而 所 有 的 方块 都 分 布 在 离 中 心 较 远 的 地 方 。 





00 0L 02 03 04 05 06 07 08 09 10 


图 14-10” 非 线 性 可 分 的 数据 集 


显然 如 果 用 一 条 直线 ， 无 论 怎么 样 我 们 也 不 能 把 两 类 数据 集 较为 准确 地 划分 开 。 回 想 一 下 
在 进行 回归 分 析 时 ， 如 果 一 元 线性 回归 对 数据 进行 拟 合 无 法 达到 理想 的 准确 度 ， 彼 时 ， 我 们 会 
考虑 采用 多 元 线性 回归 , 也 就 是 用 多 项 式 所 表示 的 曲线 来 蔡 代 一 元 线性 回归 模型 所 表示 的 直线 。 
此 时 的 思路 也 是 这 样 。 如 果 采 用 如 图 14-10 所 示 的 那个 圆周 来 作为 最 大 间隔 分 类 器 很 显然 就 会 
得 到 很 理想 的 效果 。 所 以 不 妨 使 用 下 面 的 公式 对 数据 集中 的 实例 进行 分 类 : 
_ {+1, VG —0.5)2 + (x —0.5)2 > 0.2 
yu xz) = ni 
这 里 所 采用 的 分 类 依据 就 是 下 面 这 个 圆周 : 
(xi 一 0.5)2 + (xz 一 0.5)2 = 0.2 
这 似乎 和 我 们 所 说 的 多 项 式 还 有 些 距离 ， 所 以 将 其 进一步 化 简 为 下 面 这 个 二 次 方程 
X? 一 Xi 十 x2 一 Xz = 一 0.46 


事实 上 我 们 所 要 做 的 就 是 将 数据 从 原先 的 坐标 空间 x 变换 到 一 个 新 的 坐标 空间 B(x) 中 ， 从 
而 可 以 在 变换 后 的 坐标 空间 中 使 用 一 个 线性 的 决策 边界 来 划分 样本 。 进 行 变换 后 ， 就 可 以 应 用 
之 前 介绍 的 方法 在 变换 后 的 空间 中 找到 一 个 线性 的 决策 边界 。 就 本 例 而 言 ， 为 了 将 数据 从 原先 
的 特征 空间 映射 到 一 个 新 的 空间 ， 而 且 保证 决策 边界 在 这 个 新 空间 下 成 为 线性 的 ， 可 以 考虑 选 
择 如 下 的 变换 : 


wwaibbt.com DOODOODOODOO 
346 


第 14 章 支持 向 量 机 


9: (xl xX2) (x2, XZ, xX1, X2, X1X2) 1) 
然后 在 变换 后 的 空间 中 ， 找 到 参数 w = (wo, wi1,… ,ws)， 使 得 : 
Wsx? 十 w4X2 + WaXi + WaXi + WixixX2 + Wo=0 

这 是 一 个 五 维 的 空间 ,而且 分 类 器 函数 是 线性 的 ,最 初 在 二 维 空间 中 无 法 被 线性 分 离 的 数据 集 ， 
映射 到 一 个 高 维 空间 后 ， 就 可 以 找到 一 个 线性 的 分 类 器 来 对 数据 集 进行 分 割 。 我 们 无 法 绘制 出 
这 个 五 维 的 空间 , 但 是 为 了 演示 得 到 的 分 类 器 在 新 空间 中 的 可 行 性 , (而且 仅仅 是 为 了 绘图 的 方 
便 ) 还 是 可 以 把 x? 一 x 合并 成 一 个 维度 ( 记 为 x), 然后 再 把 x2 一 xz 作为 另外 一 个 维度 ( 记 为 y)。 
如 此 一 来 ， 就 可 以 绘制 与 新 生成 之 空间 等 价 的 一 个 空间 ， 并 演示 最 终 的 划分 效果 如 图 14-11 所 
示 ， 其 中 虚线 所 示 之 方程 为 x 十 y 二 0.46 = 0。 显 然 两 个 数据 集 在 新 的 空间 中 已 经 被 成 功 地 分 开 
Ta 





-0.30 -0.25 -0.20 -0.15 -0.10 -0.05 0.00 
图 14-11 变换 后 新 空间 中 的 分 类 器 
但 这 种 方法 仍然 是 有 问题 的 。 在 这 个 例子 中 ， 对 一 个 二 维 空间 做 映射 ， 选 择 的 新 空间 是 原 
始 空间 的 所 有 一 阶 和 二 阶 的 组 合 ， 得 到 了 5 个 维度 ; 如 果 原 始 空间 是 三 维 的 ， 那 么 最 终 会 得 到 
19 维 的 新 空间 ， 而 且 这 个 数目 是 呈 爆 炸 性 增长 的 ， 这 给 变换 函数 的 计算 带 来 了 非常 大 的 困难 。 
14.4.2 节 将 给 出 解决 之 道 。 


14.4.2 ” 非 线 性 核 函数 方法 
假定 存在 一 个 合适 的 函数 B(x) 来 将 数据 集 映射 到 新 的 空间 。 而 且 在 新 的 空间 中 ， 我 们 可 以 
构建 一 个 线性 的 分 类 器 来 有 效 地 将 样本 划分 到 它们 各 自 的 属 类 中 去 。 在 变换 后 的 新 空间 中 ， 线 
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性 决策 边界 具有 如 下 形式 w . B(x) +b = 0。 
于 是 非 线性 支持 向 量 机 的 目标 函数 就 可 以 形式 化 地 表述 为 如 下 形式 : 
min lwll? 
Ss.t. yi[wIG(xi) + bl]>21, 二 三 二 下 5 而 
不 难 发 现 ， 非 线性 支持 向 量 机 其 实 和 我 们 在 处 理 线性 支持 向 量 机 时 的 情况 非常 相似 。 区 别 主要 


在 于 , 机 器 学 习 过 程 是 在 变换 后 的 @(xi) 上 进行 的 , 而 非 原来 的 xi。 采 用 与 之 前 相同 的 处 理 策略 ， 
可 以 得 到 优化 问题 的 拉 格 朗 日 对 偶 函 数 为 : 


k k 
和 
Wiha y thr 人 GD) 
i= tj= 
同 理 ， 在 得 到 ui 之 后 ， 就 可 以 通过 下 面 的 方程 导出 参数 w 和 的 值 : 
k 
w= 7 aiyiD xi) 


i=1 
k 


— > yo(%) “ P(Xi) 


户 1 


最 后 ， 可 以 通过 下 式 对 检验 实例 进行 分 类 决策 : 
f(z) = sign[w: $B(z) +b] = sign D QiyiPDXi) :BP(zZ)+b 


不 难 发 现 , 上 述 几 个 算式 基本 都 涉及 变换 后 新 空间 中 向 量 对 之 间 的 内 积 运算 B(x;)、@$(%j)， 
而 且 内 积 也 可 以 被 看 作 相 似 度 的 一 种 度量 。 单 这 种 运算 是 相当 麻烦 的 ， 很 有 可 能 导致 维度 过 高 
而 难于 计算 。 幸 运 的 是 ， 核 技术 或 核 方法 (Kernel Trick) 为 这 一 窘境 提供 了 和 良好 的 解决 方案 。 

内 积 经 常用 来 度量 两 个 向 量 间 的 相似 度 。 类 似 地 ， 内 积 B(xi)、g@(%j) 可 以 看 成 是 两 个 样本 
观察 值 x; 和 xj 在 变换 后 新 空间 中 的 相似 性 度量 。 

核 技 术 是 一 种 使 用 原 数据 集 计算 变换 后 新 空间 中 对 应 相似 度 的 方法 。 考 虑 14.4.1 节 例 子 中 
所 使 用 的 映射 函数 @。 这 里 稍微 对 其 进行 一 些 调整 , @: (xi,x2) 一 (x?,x2, V2x1, V2x2, V2x1x2, 1)， 
但 系数 上 的 调整 并 不 会 导致 实质 上 的 改变 。 由 此 ， 两 个 输入 向 量 w 和 vw 在 变换 后 的 新 空间 中 的 内 
积 可 以 写成 如 下 形式 : 

BU) BV) = (v9,u2, V2 V2u2, V2us 2, 1) * (02, v2V2, V1, V2v2, V2v01v2, 1) 


= utv? + usv? + 2uDi + 222v2 十 2 +1= (uv+1)? 
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该 分 析 表 明 ， 变 换 后 新 空间 中 的 内 积 可 以 用 原 空间 中 的 相似 度 函 数 表示 : 
K(uv) = BU PV) = uv+1) 


这 个 在 原 属性 空间 中 计算 的 相似 度 函 数 K 称 为 核 函数 。 核 技术 有 助 于 处 理 如 何 实 现 非 线性 
支持 向 量 机 的 一 些 问 题 。 首 先 ， 由 于 在 非 线 性 支持 向 量 机 中 使 用 的 核 函 数 必须 满足 一 个 称 为 默 
瑟 定 理 的 数学 原理 ， 因 此 我 们 不 需要 知道 映射 函数 四 的 确切 形式 。 默 瑟 定 理 确 保 核 函 数 总 可 以 
用 某 高 维 空间 中 两 个 输入 向 量 的 点 积 表示 。 其 次 ， 相 对 于 使 用 变换 后 的 数据 集 ， 使 用 核 函数 计 
算 内 积 的 开销 更 小 。 而 且 在 原 空间 中 进行 计算 ， 也 有 效 地 避免 了 维度 灾难 。 

机 器 学 习 与 数据 挖掘 中 ， 关 于 核 函 数 和 核 方 法 的 研究 实在 是 一 个 难于 一 言 以 蔽 之 的 话题 。 
一 方面 可 供 选 择 的 核 函 数 众 多 ， 另 一 方面 具体 选择 哪 一 个 来 使 用 又 要 根据 具体 问题 的 不 同和 数 
据 的 差异 来 做 具体 分 析 。 最 后 给 出 其 中 两 个 最 为 常用 的 核 函数 。 


。 多 项 式 核 : K(xi, xz) = ((x1,X2) 二 R)4， 显 然 刚 才 我 们 举 的 例子 是 这 里 多 项 式 核 的 一 个 特 
例 CR= 1，d = 2)。 该 空间 的 维度 是 C&yg， 其 中 m 是 原始 空间 的 维度 。 

。 高 斯 核 :K(xi1,Xx2) = exp( 一 ||xi 一 xzll2/2c2)， 这 个 核 会 将 原始 空间 映射 到 无 穷 维 。 不 过 ， 
如 果 c 选 得 很 大 的 话 ， 高 次 特征 上 的 权重 会 衰减 得 非常 快 ， 所 以 实际 上 也 就 相当 于 一 个 
低 维 的 子 空间 ; 反 过 来 , 如 果 c 选 得 很 小 , 则 可 以 将 任意 的 数据 映射 为 线性 可 分 。 当 然 ， 
这 并 不 一 定 是 好 事 ， 因 为 随 之 而 来 的 可 能 是 非常 严重 的 过 拟 合 问题 。 但 总 的 来 说 ， 通 过 
调控 参数 ， 高 斯 核实 际 上 具有 相当 高 的 灵活 性 ， 也 是 使 用 最 广泛 的 核 函数 之 一 。 

图 14-12 中 的 左 图 是 利用 多 项 式 核 构建 的 非 线性 分 类 器 ， 右 图 则 是 利用 高 斯 核 构建 的 非 线 

性 分 类 器 。 





图 14-12” 非 线性 支持 向 量 机 的 分 类 结果 
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14.4.3” 默 瑟 定理 与 核 函 数 


对 非 线性 支持 向 量 机 使 用 的 核 函数 应 该 满足 的 要 求 是 ， 必 须 存在 一 个 相应 的 变换 ， 使 得 计 
算 一 对 向 量 的 核 函数 等 价 于 在 变换 后 的 空间 中 计算 这 对 向 量 的 内 积 。 这 个 要 求 可 以 用 默 瑟 定理 
(Mercer's Theorem) 来 形式 化 地 表述 。 该 定理 由 英国 数学 家 詹姆斯 。 默 瑟 (James Mercer) 于 
1909 年 提出 ， 定 理 表明 正定 核 可 以 在 高 维 空间 中 被 表示 成 一 个 向 量 内 积 的 形式 。 


默 瑟 定 理 : 核 函 数 K 可 以 表示 为 K(w,v5) = @B(w) :@(z)， 当 且 仅 当 对 于 任意 满足 
|eeopar 
为 有 限 值 的 函数 g(x)， 有 : 
| K(x,y)g9(x)g(y) dxdy>0 


满足 默 瑟 定 理 的 核 函数 称 为 正定 核 函 数 。 多 项 式 核 函 数 与 高 斯 核 函数 都 属于 正定 核 。 例 如 ， 
对 于 多 项 式 核 函 数 K(x,y) = (x :y 十 1)? 而 言 ， 令 g(x) 是 一 个 具有 有 限 L, 范 数 的 函数 ， 即 : 


[leyax << oo 
下 面 我 们 就 来 讨论 多 项 式 核 函数 的 正定 性 。 


| (x*:y+1)?g(x)g(y) dxdy 


= (| 2, es .) [Cxiy1)™ (xay2) "2 …] 


i=1 QQ2. 


g (Xi X2,°%* 9 (V1 2,°% dxidx2*… dy1dy2 …} 


EO em en 
i i \gias 1 X2 “IX Xz, 1QqX2 
i=1 Cd1,QC2m 


注意 上 述 过 程 中 用 到 了 二 项 式 定理 。 由 于 积分 结果 非 负 ， 所 以 多 项 式 核 是 正定 的 ， 即 满足 默 瑟 
定理 。 


14.5 ”对 数据 进行 分 类 的 实践 


在 R 中， 可 以 使 用 e1071 软件 包 所 提供 的 各 种 函数 来 完成 基于 支持 向 量 机 的 数据 分 析 与 控 
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掘 任务 。 请 在 使 用 相关 函数 之 前 ， 安 装 并 正确 引用 e1071 包 。 该 包 中 最 重要 的 一 个 函数 就 是 用 
来 建立 支持 向 量 机 模型 的 svm() 函 数 。 我 们 将 结合 后 面 的 例子 来 演示 它 的 用 法 。 


14.5.1 基本 建 模 函数 


下 面 这 个 例子 中 的 数据 源 于 1936 年 费 希 尔 发 表 的 一 篇 重要 论文 。 彼 时 他 收集 了 3 种 这 尾 花 
(分 别 标记 为 setosa、versicolor 和 virginica) 的 花 苯 和 人 花 办 数据 。 包 括 花 苯 的 长 度 和 宽度 ， 以 及 
花 办 的 长 度 和 宽度 。 我 们 将 根据 这 4 个 特征 来 建立 支持 向 量 机 模型 从 而 实现 对 3 种 意 尾 花 的 分 
类 判别 任务 。 


有 关 数 据 可 以 从 datasets 软件 包 中 的 iris 数据 集 里 获取 , 下 面 我 们 演示 性 地 列 出 了 前 5 行 数 
据 。 成 功 载 入 数据 后 ， 易 见 其 中 共 包 含 了 150 个 样本 被 标记 为 setosa、versicolor 和 virginica 
的 样本 各 50 个 ), 以 及 4 个 样本 特征 ,分 别 是 Sepal.Length、Sepal.Width、Petal.Length 和 Petal.Width。 


> iris 
Sepal.Length Sepal.Width Petal.Length Petal.Width Species 
上 5 3 BE 0 Setosa 
2 4.9 3.0 1.4 0.2 setosa 
4.7 3 1 0 六 setosa 
4 4.6 多 2 人 0 守之 setosa 
S 5:0 3.8 1 .4 0.2 setosa | 


在 正式 建 模 之 前 ， 我 们 也 可 以 通过 一 个 图 形 来 初步 判定 一 下 数据 的 分 布 情况 ， 为 此 在 R 中 
使 用 如 下 代码 来 绘制 〈 仅 选择 Petal.Length 和 Petal.Width 这 两 个 特征 时 ) 数据 的 划分 情况 。 
> 1ibrary(1attice) EN 2 
> xyplot (Petal.Length ~ Petal.Width, data = iris, groups = Species, 
+ auto.key=list (corner=c (1,0))) 

上 述 代 码 的 执行 结果 如 图 14-13 所 示 ， 从 中 不 难 发 现 ， 标 记 为 setosa 的 功 尾 花 可 以 很 容易 
地 被 划分 出 来 。 但 仅 使 用 Petal.Length 和 Petal.Width 这 两 个 特征 时 ，versicolor 和 virginica 之 间 
尚 不 是 线性 可 分 的 。 


函数 svm() 在 建立 支持 向 量 机 分 类 模型 时 有 两 种 方式 。 第 1 种 是 根据 既定 公式 建立 模型 , 此 
时 的 函数 使 用 格式 为 : 


svm(formalayldatas NU sunset, naaction = na,omtity Scale 二 TRUE) 

其 中 ，formula 代表 的 是 函数 模型 的 形式 ，data 代表 的 是 在 模型 中 包含 的 有 变量 的 一 组 可 选 格式 
数据 。 参 数 na.action 用 于 指定 当 样 本 数据 中 存在 无 效 的 空 数据 时 系统 应 该 进行 的 处 理 。 默 认 值 
na.omit 表明 程序 会 忽略 那些 数据 缺失 的 样本 。 另 外 一 个 可 选 的 赋值 是 na.fail， 它 指示 系统 在 遇 
到 空 数 据 时 给 出 一 条 错误 信息 。 参 数 scale 为 一 个 逻辑 向 量 ,， 指 定 特征 数据 是 否 需要 标准 化 ( 默 
认 标 准 化 为 均值 0、 方 差 1 )。 索 引 向 量 subset 用 于 指定 那些 将 被 用 来 训练 模型 的 采样 数据 。 
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Petal Length 





Petai Width 


图 14-13 ”选用 花瓣 的 长 度 和 宽度 特征 对 数据 做 分 类 的 结果 


例如 ， 我 们 已 经 知道 ， 仅 使 用 Petal.Length 和 Petal.Width 这 两 个 特征 时 标记 为 setosa 的 高 
尾 花 versicolor 是 线性 可 分 的 ， 所 以 可 如 用 亲生 于 SVM 模型 。 


> data(iris) 

> attach (asy ， 

> subdata < delslirissopeeiea ie vcrginiea yn 

> subdata$Species <- ‘factor (subdata$Species) 

> modell <- svm(Species ~ Petal.Length 十 Petal- ED data = subdata) 


然后 我 们 可 以 使 用 下 面 的 代码 来 对 模型 进行 图 形 化 展示 ， 其 执行 结果 如 图 14-14 所 示 。 


SVM classification plot 


Versicotor 


Petal Length 


setosa 





05 10 4.5 
Petal Width 


图 14-14 SVM 分 类 结果 1 
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> plot(modell, subdata, Petal.Length ~ Petal.Width) 

在 使 用 第 1 种 格式 建立 模型 时 ， 知 使 用 数据 中 的 全 部 特征 变量 作为 模型 特征 变量 时 ， 可 以 
简要 地 使 用 “Species~. ”中 的 “. ”代替 全 部 的 特征 变量 。 例 如 ， 下 面 的 代码 就 利用 了 全 部 4 
种 特征 来 对 3 种 瘟 尾 花 进 行 分 类 。 
> model2 <- Svm(Species ~ ., data = iris) 

若 要 显示 模型 的 构建 情况 ， 使 用 summary() 函 数 是 一 个 不 错 的 选择 。 来 看 下 面 这 段 示 例 代 
码 及 其 输出 结果 。 


> summary (model2) 





Call: 
svm(formula = Species ~ ., data = iris) 


Parameters: 
SVM-TYeeT Cclassifihoation 
SVM-Kernel: radial 
GOST 
yammas "025 


Number of Support Vectors: 51 
tO 
Number of Classes: 3 


Levels: - 
Setosa Versicolor virginica 


通过 summary() 函 数 可 以 得 到 关于 模型 的 相关 信息 。 其 中 ，SVM-Type 项 目 说 明 本 模型 的 类 
别 为 C 分 类 器 模型 ， SVM-Kernel 项 目 说 明 本 模型 所 使 用 的 核 函数 为 高 斯 内 积 函 数 且 核 函 数 中 
参数 gamma 的 取 值 为 0.25; cost 项 目 说 明 本 模型 确定 的 约束 违反 成 本 为 1。 而 且 我 们 还 可 以 看 
到 ， 模 型 找到 了 51 个 支持 向 量 : 第 1 类 包含 有 8 个 支持 向 量 ， 第 2 类 包含 有 22 个 支持 向 量 ， 
第 3 类 包含 有 21 个 支持 向 量 。. 最 后 一 行 说 明 模 型 中 的 3 个 类 别 分 别 为 setosa、versicolor 和 virginica。 

第 2 种 使 用 svm() 函 数 的 方式 则 是 根据 所 给 的 数据 建立 模型 。 这 种 方式 形式 要 复杂 一 些 , 但 


是 它 允 许 我 们 以 一 种 更 加 灵活 的 方式 来 构建 模型 。 它 的 函数 使 用 格式 如 下 注意 我 们 仅 列 出 了 
其 中 的 主要 参数 )。 


svm(x,: Y = NULL, scale = TRUE, type = NULL, kernel = "radial", 
ABonee mam aaa = it (1s ectorlx)) elSe 1 /neoL (CY, 
coef0 = 0, ‘cost = 1; nu = 0.5, subset, na.action =- na.omit) 
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此 处 ，x 可 以 是 一 个 数据 矩阵 ， 也 可 以 是 一 个 数据 向 量 ， 同 时 也 可 以 是 一 个 稀 朴 矩阵 。y 
是 对 于 x 数据 的 结果 标签 ， 它 既 可 以 是 字符 向 量 ， 也 可 以 是 数值 向 量 。x 和 y 共同 指定 了 将 要 
用 来 建 模 的 训练 数据 以 及 模型 的 基本 形式 。 


参数 type 用 于 指定 建立 模型 的 类 别 。 支 持 向 量 机 模型 通常 可 以 用 作 分 类 模型 、 回 归 模 型 或 
者 异常 检测 模型 。 根 据 用 途 的 差异 ， 在 svm0) 函 数 中 的 type 可 取 的 值 有 C-classification、 
nu-classification、one-classification、eps-regression 和 nu-regression。 这 5 种 类 型 中 。 其 中 ， 前 3 
种 是 针对 字符 型 结果 变量 的 分 类 方式 ， 其 中 第 3 种 方式 是 逻辑 判别 ， 即 判别 结果 输出 所 需 判 别 
的 样本 是 否 属于 该 类 别 ， 而 后 两 种 则 是 针对 数值 型 结果 变量 的 分 类 方式 。 


此 外 ，kernel 是 指 在 模型 建立 过 程 中 使 用 的 核 函数 。 针 对 线性 不 可 分 的 问题 ， 为 了 提高 模 
型 预测 精度 ， 通 常会 使 用 核 函数 对 原始 特征 进行 变换 ， 提 高 原始 特征 维度 ， 解 决 支持 向 量 机 模 
型 线性 不 可 分 问题 。svm() 函 数 中 的 kernel 参数 有 4 个 可 选 核 函 数 ， 分 别 为 线性 核 函 数 、 多 项 式 
核 函数 、 高 斯 核 函 数 及 神经 网 络 核 函数 。 其 中 , 高 斯 核 函数 与 多 项 式 核 函数 被 认为 是 性 能 最 好 、 
也 最 常用 的 核 函 数 。 


核 函 数 有 两 种 主要 类 型 : 局 部 性 核 函 数 和 全 局 性 核 函数 ， 高 斯 核 函数 是 一 个 典型 的 局 部 性 
核 函 数 ， 而 多 项 式 核 函 数 则 是 一 个 典型 的 全 局 性 核 函 数 。 局 部 性 核 函数 仅仅 在 测试 点 附近 小 领 
域内 对 数据 点 有 影响 ， 其 学 习 能 力 强 、 泛 化 性 能 较 弱 ， 而 全 局 性 核 函 数 则 相对 来 说 泛 化 性 能 较 
强 、 学 习 能 力 较 弱 。 


对 于 选 定 的 核 函 数 , degree 参数 是 指 核 函 数 多 项 式 内 积 函 数 中 的 参数 , 其 默认 值 为 3。gamma 
参数 给 出 了 核 函数 中 除 线性 内 积 函 数 以 外 的 所 有 函数 的 参数 ， 默 认 值 为 |。coef0 参数 是 指 核 函 
数 中 多 项 式 内 积 函 数 与 sigmoid 内 积 函 数 中 的 参数 ， 默 认 值 为 0。 

另外 ， 参 数 cost 就 是 软 间隔 模型 中 的 离 群 点 权重 。 最 后 ， 参 数 nu 是 用 于 nu-regression、 
nu-classification 和 one-classification 类 型 中 的 参数 。 

一 个 经 验 性 的 结论 是 , 在 利用 svm() 函 数 建 立 支持 向 量 机 模型 时 , 使 用 标准 化 后 的 数据 建立 
的 模型 效果 更 好 。 

根据 函数 的 第 2 种 使 用 格式 ， 在 针对 上 述 数 据 建立 模型 时 ， 首 先 应 该 将 结果 变量 和 特征 变 
量 分 别提 取出 来 。 结 果 向 量 用 一 个 向 量 表示 ， 特 征 向 量 用 一 个 矩阵 表示 。 在 确定 好 数据 后 还 应 
根据 数据 分 析 所 使 用 的 核 函 数 以 及 核 函 数 所 对 应 的 参数 值 来 建立 模型 ， 通 常 默认 使 用 高 斯 内 积 
函数 作为 核 函 数 。 下 面 给 出 一 段 示 例 代码 。 

_# 提 取 iris 数据 中 除 第 5 列 以 外 的 数据 作为 特征 变量 
列 数 变量 






et 2 ncol (x) ) 
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在 使 用 第 2 种 格式 建立 模型 时 ， 不 需要 特别 强调 所 建立 模型 的 形式 ， 函 数 会 自动 将 所 有 输 
入 的 特征 变量 数据 作为 建立 模型 所 需要 的 特征 向 量 。 在 上 述 过 程 中 ， 确 定 核 函 数 的 gamma 系数 
时 所 使 用 的 代码 代表 的 意思 是 : 如 果 特 征 向 量 是 向 量 则 gamma 值 取 1， 否则 gamma 值 为 特征 向 
量 个 数 的 倒数 。 


14.5.2 分析 建 模 结 果 

在 利用 样本 数据 建立 模型 之 后 ， 我 们 便 可 以 利用 模型 来 进行 相应 的 预测 和 判别 。 基 于 由 
svm() 函 数 建 立 的 模型 来 进行 预测 时 ， 可 以 选用 函数 predict() 来 完成 相应 的 工作 。 在 使 用 该 函数 
时 , 应 该 首先 确认 将 要 用 于 预测 的 样本 数据 , 并 将 样本 数据 的 特征 变量 整合 后 放 入 同一 个 矩阵 。 
来 看 下 面 这 段 示例 代码 。 
2 peed <- predict (model3, x) 






tosa Saad virginica 
SO 0 0 





. versicolor 0 48 2 
virginica 0 2 48 


通常 在 进行 预测 之 后 ， 还 需要 检查 模型 预测 的 准确 情况 ， 这 时 便 需 要 使 用 函数 table() 来 对 
预测 结果 和 真实 结果 做 出 对 比 展示 。 从 上 述 代 码 的 输出 中 ， 可 以 看 到 在 模型 预测 时 ， 模 型 将 所 
有 属于 setosa 类 型 的 营 尾 花 全 部 预测 正确 ， 模 型 将 属于 versicolor 类 型 的 营 尾 花 中 有 48 条 预测 
正确 但 将 另外 两 杂 错 误 地 预测 为 virginica 类 型 ， 同 样 ， 模 型 将 属于 virginica 类 型 的 营 尾 花 中 
的 48 灯 预 测 正确 ， 但 也 将 另外 两 灯 错 误 地 预测 为 versicolor 类 型 。 


函数 predict() 中 的 一 个 可 选 参 数 是 decision.values, 我 们 在 此 也 对 该 参数 的 使 用 做 简要 讨论 。 
默认 情况 下 ， 该 参数 的 值 为 FALSE。 若 将 其 置 为 TRUE， 那 么 函数 的 返回 向 量 中 将 包含 有 一 个 
名 为 “decision.values” 的 属性 ， 该 属性 是 一 个 n x c 的 矩阵 。 这 里 ，n 是 被 预测 的 数据 量 ，c 是 二 
分 类 器 的 决策 值 。 注意， 因为 我 们 使 用 支持 向 量 机 对 样本 数据 进行 分 类 , 分 类 结果 可 能 有 k 个 类 
别 。 那么 这 k 个 类 别 中 任意 两 类 之 间 都 会 有 一 个 二 分 类 器 。 所 以 , 我 们 可 以 推算 出 总 共 的 二 分 类 
oh 一 决策 值 矩 阵 中 的 列 名 就 是 二 分 类 的 标签 。 来 看 下 面 这 段 示 例 代 码 。 


Q.6 T708373 
0.8482323 
0.6438980 
0.6781059 





ainda Wersicolor/Y rginica 
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Levels: ta versicolor a 


由 于 我 们 要 处 理 的 是 一 个 分 类 问题 ， 所 以 分 类 决策 最 终 是 经 由 一 个 sign(`) 函 数 来 完成 的 。 
从 上 面 的 输出 中 可 以 看 到 ， 对 于 样本 数据 4 而 言 ， 标 签 setosa/versicolor 对 应 的 值 大 于 0， 因 此 属 
于 setosa 类 别 ;， 标签 setosa/virginica 对 应 的 值 同 样 大 于 0， 以 此 判定 也 属于 setosa; 在 二 分 类 器 
versicolorvirginica 中 对 应 的 决策 值 大 于 0， 判 定 属于 versicolor。 所 以 ， 最 终 样 本 数据 4 被 判定 
属于 setosa。 依 据 同样 的 逻辑 ， 我 们 还 可 以 根据 决策 值 的 符号 来 判定 样本 77 和 样本 78， 分 别 是 
属于 versicolor 和 virginica 类 别 的 。 


为 了 对 模型 做 进一步 分 析 ， 可 以 通过 可 视 化 手段 对 模型 进行 展示 ， 下 面 给 出 示例 代码 ， 结 
果 如 图 14-15 所 示 。 可 见 ， 通 过 plot() 函 数 对 所 建立 的 支持 向 量 机 模型 进行 可 视 化 后 ， 所 得 到 的 
图 像 是 对 模型 数据 类 别 的 一 个 总 体 观察 。 图 14-15 中 的 “十 ”表示 的 是 支持 向 量 ， 圆 圈 表 示 的 
是 普通 样本 点 。 
> Plot (cmdscale (dist Gris[,-5])), 

+ col= c ("orange ‘"blue™, "agreen") (ad. er dant 51) 让 

+, Bch = Eo m+") Ti:150 Sins model3$index + 1]) ~ > 
> ‘legend (1.8, -0; HB c("setosa", "versicolor", "virgincia"), 3 

+ col = c("orange", "blue'","green"), lty = 1) i 


cmdscale( dist(iris{, -9)i[ 了] 





cmdscale(dist(irist, -SI)),1} 
图 14-15 SVM 分 类 结果 2 
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在 图 14-15 中 我 们 可 以 看 到 ， 芒 尾 花 中 的 第 1 种 setosa 类 别 同 其 他 两 种 区 别 较 大 ， 而 剩 下 
的 versicolor 类 别 和 virginica 类 别 却 相差 很 小 ， 甚 至 存在 交叉 难以 区 分 。 注 意 ， 这 是 在 使 用 了 全 
部 4 种 特征 之 后 仍然 难以 区 分 的 情况 。 这 也 从 另 一 个 角度 解释 了 在 模型 预测 过 程 中 出 现 的 问题 ， 
所 以 模型 误 将 2 条 versicolor 类 别 的 花 预 测 成 了 virginica 类 别 , 而 将 2 条 virginica 类 别 的 花 错 
误 地 预测 成 了 versicolor 类 别 ， 也 就 是 很 正常 的 现象 了 。 
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人 工 神经 网 络 (Artificial Neural Network, ANN) 是 一 种 模仿 生物 神经 网 络 的 结构 和 功能 能 
数学 模型 或 计算 模型 ， 它 通过 大 量 人 工 神经 元 连接 而 成 的 网 络 来 执行 计算 任务 。 尽 管 人 工 神 经 
网 络 的 名 字 初 听 起 来 有 些 深奥 ， 但 从 另外 一 个 角度 来 说 ， 它 仍然 是 前 面 介 绍 过 的 多 元 回归 模型 
以 及 支持 向 量 机 的 延伸 。 为 了 加 深 读 者 对 人 工 神 经 网 络 的 认识 ， 本 章 将 以 单个 神经 元 所 构成 的 
感知 机 模型 作为 开始 。 和 希望 读者 可 以 在 这 个 过 程 中 结合 之 前 已 经 学 习 过 的 模型 ， 努 力 建立 它们 
与 人 工 神经 网 络 之 间 的 联系 。 


15.1 从 感知 机 开始 


感知 机 是 生物 神经 细胞 的 简单 抽象 ， 它 同时 也 被 认为 是 最 简 形式 的 前 馈 神 经 网 络 ， 或 单 层 
的 人 工 神 经 网 络 。1957 年 ， 供 职 于 Cornell 航空 实验 室 的 美国 心理 学 家 弗兰克 。 罗 森 布 拉 特 
(Frank Rosenblatt) 提出 了 可 以 模拟 人 类 感知 能 力 的 机 器 ， 并 称 之 为 感知 机 。 他 还 成 功 地 在 一 台 
IBM 704 机 上 完成 了 感知 机 的 仿真 ， 极 大 地 推动 了 人 工 神 经 网 络 的 发 展 。 


15.1.1 感知 机 模型 

人 类 的 大 脑 主要 由 被 称 为 神经 元 的 神经 细胞 组 成 ， 如 图 15-1 所 示 ， 神 经 元 通过 叫 作 轴 突 的 
纤维 丝 连 在 一 起 。 当 神经 元 受到 刺激 时 ， 神 经 脉冲 通过 轴 突 从 一 个 神经 元 传 到 另 一 个 神经 元 。 
一 个 神经 元 可 以 通过 树 突 连接 到 其 他 神经 元 的 轴 突 ， 从 而 构成 神经 网 络 ， 树 突 是 神经 元 细胞 体 
的 延伸 物 。 

科学 研究 表明 ， 在 同一 个 脉冲 反复 刺激 下 ， 人 类 大 脑 会 改变 神经 元 之 间 的 连接 强度 ， 这 也 
就 是 大 脑 的 学 习 方式 。 类 似 于 人 脑 的 结构 ， 人 工 神经 网 络 也 由 大 量 的 节点 〈 或 称 神经 元 ) 之 间 
相互 连接 构成 。 每 个 节点 都 代表 一 种 特定 的 输出 函数 , 我 们 称 其 为 激励 函数 (Activation Function )。 
每 两 个 节点 间 的 连接 都 代表 一 个 通过 该 连接 信号 的 加 权 值 ， 称 之 为 权重 。 
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图 15-1 神经 元 结构 
感知 机 〈Perceptron) 就 相当 于 是 单个 神经 元 。 如 图 15-2 所 示 ， 它 包含 两 种 节点 : 几 个 用 
来 表示 输入 属性 的 输入 节点 和 一 个 用 来 提供 模型 输出 的 输出 节点 。 在 感知 机 中 ， 每 个 输入 节点 
都 通过 一 个 加 权 的 链 连 接 到 输出 节点 。 这 个 加 权 的 链 用 来 模拟 神经 元 间 连 接 的 强度 。 像 生物 神 
经 系统 的 学 习 过 程 一 样 ， 训 练 一 个 感知 机 模型 就 相当 于 不 断 调 整 链 的 权 值 ， 直 到 能 拟 合 训练 数 
据 的 输入 输出 关系 为 止 。 


图 15-2 感知 机 模型 
感知 机 对 输入 加 权 求 和 ， 再 减 去 偏 置 因子 bp， 然后 考察 结果 的 符号 ,得 到 输出 值 f(x)。 于 是 
可 以 用 从 输入 空间 到 输出 空间 的 如 下 函数 来 表示 它 : 
f(x) = sign(w:x+b) 
其 中 ，w 和 4b 为 感知 机 模型 参数 ，w 称 为 权 值 向 量 ，b 称 为 偏 置 ，w : x 表 示 w 和 x 的 内 积 。sign 是 
符号 函数 ， 即 : 


十 二 a>0 
sign(W) = {1 a<o0 


感知 机 是 一 种 线性 分 类 模型 ， 这 与 前 面 介 绍 过 的 支持 向 量 机 非常 相似 。 所 以 线性 方程 
wx 十 b = 0 就 对 应 于 特征 空间 中 的 一 个 分 离 超 平面 ， 其 中 w 是 超 平 面 的 法 向 量 ，b 是 超 平面 的 
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截 距 。 该 超 平面 将 特征 空间 划分 为 两 个 部 分 。 位 于 两 部 分 的 点 (特征 向 量 ) 分 别 被 分 为 正 、 负 
两 类 。 
15.1.2 感知 机 学 习 
给 定 一 个 训练 数据 集 : 
T = {(X1, ya (x2,y2),*%%, (Xs yn)} 


其 中 ,xi EX = Rn， EY = {一 1}，i = 1,2,…,N。 那 么 一 个 错误 的 预测 结果 同 实际 观察 值 
之 间 的 差距 可 以 表示 为 : 





D(w,b) = [y; — sign(w .Xi 十 及]? 
显然 对 于 预测 正确 的 结果 ， 上 式 总 是 为 零 的 。 所 以 可 以 定义 总 的 损失 函数 如 下 : 
区 的 二 = > yi(w :xi + b) 


XiEM 
其 中 必 为 误 分 类 点 的 集合 ， 即 只 考虑 那些 分 类 错误 的 点 。 显 然 分 类 错误 的 点 的 预测 结果 同 实际 
观察 值 y; 具 有 相反 的 符号 ， 所 以 在 前 面 加 上 一 个 负 号 以 保证 上 式 中 的 每 一 项 都 是 正 的 。 
现在 感知 机 的 学 习 目 标 就 变 成 了 求 得 一 组 参数 w 和 b 以 保证 下 式 取得 极 小 值 的 一 个 最 优化 
问题 : 





minL(w,b)=— yi(w' xi+b) 
wb 和 
其 中 w 向 量 和 Xx; 向 量 中 的 元 素 的 索引 都 是 从 1 开始 的 ， 为 了 符号 上 的 简便 ， 可 以 用 wo 来 代替 b， 
然后 在 xi 向 量 中 增加 索引 为 0 的 项 ， 并 令 其 恒 等 于 1。 这 样 可 以 将 上 式 写 成 : 
min L(w) = > yi(w: xi) 


XiEM 





感知 机 学 习 算法 是 误 分 类 驱动 的 , 具体 采用 随机 梯度 下 降 法 (Stochastic Gradient Descent)。 
首先 ， 任 选 一 个 参数 向 量 w”， 由 此 可 决定 一 个 超 平面 。 然 后 用 梯度 下 降 法 不 断 地 极 小 化 上 述 目 
标 函 数 。 极 小 化 过 程 中 不 是 一 次 使 M 中 所 有 误 分 类 点 的 梯度 下 降 ， 而 是 一 次 随机 选取 一 个 误 分 
类 点 使 其 梯度 下 降 。 


假设 误 分 类 点 集合 M 是 固定 的 ， 那 么 损失 函数 L(w) 的 梯度 由 下 式 给 出 : 
VL(W) = 一 x yiXi 


XiEM 


随机 选取 一 个 误 分 类 点 (xi,yi)， 对 w 进 行 更 新 : 
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WT © wr + Nyix 


式 中 7 是 步 长 , 0 < ng1, 在 统计 学 习 中 又 称 为 学 习 率 。 这 样 , 通过 和 欠 代 便 可 期 望 损失 函数 LOw) 不 
断 减 小 ， 直 到 为 零 。 在 感知 机 学 习 算法 中 我 们 一 般 令 其 等 于 1。 所 以 迭代 更 新 公式 就 变 为 了 : 
Wetl 二 we + yixXi 

图 15-3 更 加 清楚 地 表明 了 这 个 更 新 过 程 的 原理 。 其 中 左 图 表示 实际 观察 值 为 +1， 但 是 模 
型 的 分 类 预测 结果 为 -1。 根 据 向 量 运算 的 法 则 ， 可 知 w* 和 zi 之 间 的 角度 太 大 了 ， 于 是 我 们 试图 
将 二 者 之 间 的 夹 角 调 小 一 点 。 根 据 平行 四 边 形 法 则 ，w* + yixi 就 表示 知 w* 和 xX; 所 构成 之 平行 四 
边 形 的 对 角 线 ，w*1+! 与 x; 之 间 的 角度 就 被 调 小 了 。 右 图 表示 实际 观察 值 为 -1, 但 是 模型 的 分 类 
预测 结果 为 +1。 类 似 地 , 可 知 w* 和 xx; 之 间 的 角度 太 小 了 , 于 是 设法 将 二 者 之 间 的 夹 角 调 大 一 点 。 
在 w* + yixi 中 ， 观 察 值 y; = -1， 所 以 这 个 式 子 就 相当 于 是 在 执行 向 量 减法 ， 结 果 如 图 15-3 所 
示 就 是 把 w*11 与 Xj 之 间 的 角度 给 调 大 一 些 。 


了 一 十 1 0 y=-1 





Ww + yx 


图 15-3 ” 迁 代 更 新 过 程 
综 上 所 述 ， 对 于 感知 机 模型 f(x) = sign(w :xX)， 可 以 给 出 其 学 习 算 法 如 下 。 
1. 随机 选取 初 值 w*=0; 
2. 在 训练 集中 选取 数据 (xp yi); 
3. 如 果 y;(w* .xi 和 0， 即 该 点 是 一 个 误 分 类 点 ， 则 : 





Wt ~ We + yixt 
4. 转 至 第 2 步 ， 直 到 训练 集中 没有 误 分 类 点 。 


接 下 来 就 采用 感知 机 学 习 算法 对 14.2.4 节 中 所 给 出 的 数据 集 进行 分 类 。 该 数据 集 给 定 了 平 
面 上 的 3 个 数据 点 ， 其 中 ,标记 为 +1 的 数据 点 为 xi; = (3,3) 以 及 Xx， = (4,3),， 标记 为 -1 的 数据 点 
为 Ws 三 (1,1)s 


根据 算法 描述 ， 首 先 选取 初 值 w" = (0,0,0)。 此 时 ， 对 于 xi 来 说 有 : 


yi(w? “x(Y + wo x +we)=0 
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即 没 有 被 正确 分 类 ， 于 是 更 新 : 
w! = w?° + y1(3,3,1) = (3,3,1) 
得 到 线性 模型 : 
Wi'X=3x 十 3x@ 十 1 
对 于 xi 和 xz， 分 类 结果 正确 。 但 对 于 xs， 可 得 : 
Ja(wi -x +wi:x +wi)<o0 
即 没 有 被 正确 分 类 ， 于 是 更 新 : 
Ww? = w! + ya3(1,1,1) = (2,2,0) 
得 到 线性 模型 : 
W2 .无 = 2x(D 十 2X(2) 
如 此 继续 下 去 ， 直 到 w7 = (1,1, 一 3) 时 ， 新 的 分 类 超 平面 为 : 
Ww7 :X= Xx +xH—3 
对 所 有 数据 点 yi(w7 . xi) > 0， 不 再 有 误 分 类 的 数据 点 ,损失 函数 达到 极 小 。 最 终 的 感知 机 模型 
就 为 : 
f(x) = sign(x'd + x 一 3) 
注意 这 一 结果 同 之 前 采用 支持 向 量 机 所 得 之 模型 是 不 同 的 。 事 实 上 ， 感 知 机 学 习 算 法 由 于 
采用 不 同 的 初 值 或 选取 不 同 的 误 分 类 点 ， 解 也 不 是 唯一 的 。 
15.1.3 ”多 层 感知 机 


正如 同 我 们 在 支持 向 量 机 中 曾经 讨论 过 的 那样 ， 简 单 的 线性 分 类 器 在 使 用 过 程 中 是 具有 很 
多 限制 的 。 对 于 线性 可 分 的 分 类 问题 ， 感 知 机 学 习 算 法 保证 收敛 到 一 个 最 优 解 ， 如 图 15-4 中 的 
(aq) 和 (b) 所 示 , 我 们 最 终 可 以 找到 一 个 超 平面 来 将 两 个 集合 分 开 。 但 如 果 问 题 不 是 线性 可 分 的 ， 
那么 算法 就 不 会 收敛 。 例 如, 图 15-4 中 的 (c) 所 给 出 的 区 域 相当 于 是 (a) 和 (b) 中 的 集合 进行 了 罗 
辑 交 运算 ， 所 得 的 结果 就 是 非 线性 可 分 的 例子 。 简 单 的 感知 机 找 不 到 该 数据 的 正确 解 ， 因 为 没 
有 线性 超 平面 可 以 把 训练 与 实例 完全 分 开 。 

一 个 解决 方案 是 把 简单 的 感知 机 进行 组 合 使 用 。 如 图 15-5 所 示 , 事实 上 是 在 原 有 简单 感知 
机 的 基础 上 又 增加 了 一 层 。 最 终 可 以 将 图 15-5 中 的 双 层 感知 机 模型 用 下 面 这 个 式 子 来 表示 : 


G(x) = sign 民 十 > ai ， so = sign[—1 + gi(x) + g2(x)] 


i=1 
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注意 ， 其 中 wi 和 w2 是 权 值 向 量 ( 与 图 15-2 中 的 wi 和 wz 不 同 )， 例 如 ，wi 中 的 各 元 素 依次 为 
Wiorwin…,Win。 同时 为 了 符号 表达 上 的 简洁 ， 令 xo = 1， 这 样 一 来 ， 便 可 以 用 wio 来 代替 之 前 
的 偏 置 因子 bp。 显然 ， 在 上 式 的 作用 下 ， 只 有 当 gi(x) 和 gz(x) 都 为 +1 时 ， 最 终结 末 才 为 +1， 否 
则 最 终结 果 就 为 -1。 





图 15-4 线性 分 类 器 的 组 合 使 用 





图 15-5 ”实现 交 运 算 的 双 层 感知 机 


易 见 ,上 面 这 种 双 层 的 感知 机 模型 其 实 是 简单 感知 机 的 一 种 线性 组 合 , 但 是 它 却 非常 强大 。 
比如 平面 上 有 个 圆 形 区 域 ， 圆 周 内 的 数据 集 标 记 为 “十 ” 圆周 外 的 数据 集 则 标记 为 “一 ”。 显 然 
用 简单 的 感知 机 模型 ， 我 们 无 法 准确 地 将 两 个 集合 区 分 开 来 。 但 是 类 似 于 前 面 的 例子 ， 显 然 可 
以 用 8 个 简单 感知 机 进行 线性 组 合 ， 如 图 15-6 中 的 左 图 所 示 ， 然 后 用 所 得 的 正八 边 形 来 作为 分 
类 器 。 或 者 还 可 以 使 用 如 图 15-6 中 的 右 图 所 示 的 (由 16 个 简单 感知 机 进行 线性 组 合 而 成 的 ) 
正 十 六 边 形 来 作为 分 类 器 。 理 论 上 来 说 ， 只 要 采用 足够 数量 的 感知 机 ， 我 们 最 终 将 会 得 到 一 条 
平滑 的 划分 边界 。 不 仅 可 以 用 感知 机 的 线性 组 合 来 对 圆 形 区 域 进行 逼近 , 事实 上 采用 此 种 方式 ， 
我 们 可 以 得 到 任何 凸 集 的 分 类 器 。 

可 见 ， 双 层 的 感知 机 已 经 比 单 层 的 情况 强大 许多 了 。 此 时 ， 自 然 会 想到 如 果 再 加 一 层 感知 
机 呢 ?” 作 为 一 个 例子 ， 不妨 来 想 想 如 何 才能 实现 逻辑 上 的 异 或 运算 。 从 图 15-7 中 来 看 ， 现 在 的 
目标 就 是 得 到 如 图 15-7 中 (c) 所 示 的 一 种 划分 。 蜡 或 运算 要 求 当 两 个 集合 不 同时 《〈 即 一 个 标记 
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为 “+”， 一 个 标记 为 “一 ”)， 它 们 的 异 或 结果 为 “+”， 相反 ， 两 个 集合 相同 时 ， 它 们 的 异 或 结 
果 就 为 2 





图 15-6 简单 感知 机 的 线性 组 合 应 用 举例 





(b) 
图 15-7 异 或 运算 
根据 基本 的 离散 数学 知识 可 得 : 


XOR(g1,92) = ("91N92)V(g1\—92) 


于 是 可 以 使 用 如 图 15-8 所 示 的 多 层 感知 机 模型 (Multi-layer Perceptrons) 来 解决 我 们 的 问题 。 
也 就 是 先 做 一 层 交 运算 ， 再 做 一 层 并 运算 。 注 意 交 运算 中 隐 含 有 一 层 取 反 运算 。 这 个 例子 显示 
出 了 多 层 感 知 机 模型 更 为 强大 的 能 力 。 因 为 问题 本 身 是 一 个 线性 不 可 分 的 情况 ， 可 想 而 知 ， 即 
使 用 支持 向 量 机 来 做 分 类 ， 也 是 很 困难 的 。 


到 此 为 止 ， 我 们 就 得 到 人 工 神经 网 络 的 基本 形式 了 。 而 这 一 切 都 是 从 最 简单 的 感知 机 模型 
一 步 步 推 帝 而 来 的 。 更 进一步 的 内 容 ， 我 们 将 留待 本 章 后 续 进 行 讲 解 。 
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图 15-8 多 层 感 知 机 模型 


15.2 基本 神经 网 络 


在 15.1 节 中 ,为 了 让 简单 的 感知 机 完成 更 加 复杂 的 任务 ,我 们 设法 增加 了 感知 机 结构 的 层 
数 。 多 层 感知 机 的 本 质 是 通过 感知 机 的 嵌 套 组 合 ， 实 现 特征 空间 的 逐 层 转换 ， 以 期 在 一 个 空间 
中 不 可 分 的 数据 集 得 以 在 另外 的 空间 中 变 得 可 分 。 由 此 也 引出 了 人 工 神经 网 络 的 基本 形式 。 


15.2.1 神经 网 络 结构 

回顾 一 下 已 经 得 到 的 多 层 感 知 机 模型 。 网 络 的 输入 层 和 输出 层 之 间 可 能 包含 多 个 中 间 层 ， 
这 些 中 间 层 叫 作 隐藏 层 〈Hidden Layer)， 隐 藏 层 中 的 节点 称 为 隐藏 节点 〈Hidden Node)。 这 也 
就 是 人 工 神经 网 络 的 基本 结构 。 具 有 这 种 结构 的 神经 网 络 也 称 前 馈 神经 网 络 (Feedforward Neural 
Network )。 


在 前 馈 神 经 网 络 中 ， 每 一 层 的 节点 仅 和 下 一 层 的 节点 相连 。 换 言 之 ， 在 网 络 内 部 ， 参 数 从 
输入 层 向 输出 层 单 向 传播 。 感知 机 就 是 一 个 单 层 的 前 馈 神经 网 络 ， 因 为 它 只 有 一 个 节点 层 〈 输 
出 层 ) 进行 复杂 的 数学 运算 。 在 循环 的 (Recurrent) 神经 网 络 中 ， 人 允许 同一 层 节点 相连 或 一 层 
的 节点 连 到 前 面 各 层 中 的 节点 。 可 见 ， 人 工 神 经 网 络 的 结构 比 感知 机 模型 更 复杂 ， 而 且 人 工 神 
经 网 络 的 类 型 也 有 许多 种 。 但 在 本 章 中 ,我 们 仅 讨论 前 馈 神 经 网 络 。 

除了 符号 函数 外 ， 神 经 网 络 中 还 可 以 使 用 其 他 类 型 的 激活 函数 ， 常 见 的 激活 函数 类 型 有 线 
性 函数 、S 型 函数 、 双 曲 正切 函数 等 ， 如 图 15-9 所 示 。 具 体 应 用 中 ， 双 曲 正切 函数 较为 常见 ， 
在 本 章 后 续 的 讨论 中 ， 我 们 也 以 此 为 例 进行 介绍 。 但 读者 应 该 明白 ， 这 并 不 是 唯一 的 选择 。 此 
外 ， 不 难 发 现 ， 这 些 激 活 函数 允许 隐藏 节点 和 输出 节点 的 输出 值 与 输入 参数 呈 非 线性 关系 。 
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双 曲 正切 函数 符号 函数 
图 15-9 人 工 神经 网 络 中 常用 激活 函数 的 类 型 


15.2.2 ”符号 标记 说 明 

为 了 方便 后 续 的 介绍 ， 此 处 我 们 先 来 整理 一 下 符号 记 法 。 假 设 有 如 图 15-10 所 示 的 一 个 神 
经 网 络 ， 最 开始 有 一 组 输入 x = (xo, xu xz …,xa)， 在 权重 w 多 的 作用 下 ， 得 到 一 组 中 间 输 出 。 
这 组 输出 再 作为 下 一 层 的 输入 ， 并 在 权重 w2 的 作用 下 ， 得 到 另外 一 组 中 间 输 出 。 如 此 继续 下 

经 过 剩余 所 有 层 的 处 理 之 后 将 得 到 最 终 的 输出 。 如 何 标记 上 面 这 些 权重 呢 ? 那么 就 先 要 来 
看 看 模型 中 一 共有 哪些 层次 。 通 常 ， 将 得 到 第 一 次 中 间 输 出 的 层次 标记 为 第 1 层 〈 亦 即 图 15-10 
中 只 有 3 个 节点 的 那 层 )。 然 后 依 此 类 推 ，( 在 图 15-8 中 ) 继续 标记 第 2 层 以 及 《〈 给 出 最 终结 果 
的 ) 第 3 层 。 此 外 ， 为 了 记 法 上 的 统一 ， 将 输入 层 〈 尽 管 该 层 什么 处 理 都 不 做 ) 标记 为 第 0 层 。 























图 15-10 人工 神经 网 络 模型 
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第 0 层 和 第 1 层 之 间 的 权重 ,我 们 用 w 和 9 来 表示 ， 所 以 符号 中 (用 于 标记 层级 的 ) 上 标 4 就 在 
1~~L 取 值 ，L 是 神经 网 络 (不 计 第 0 层 ) 的 层 数 ， 在 我 们 的 例子 中 = 3。 如 果 用 a 来 表示 每 一 层 
的 节点 数 ， 那 么 第 # 层 所 包含 的 节点 数 就 记 为 4 中 。 如 果 将 j 作 为 权重 w? 中 对 应 输出 项 的 索引 ， 
那么 j 的 取 值 就 介 于 1~d 中 。 网 络 中 间 的 每 一 层 都 需要 接受 前 一 层 的 输出 来 作为 本 层 的 输入 , 然 
后 经 过 一 定 的 计算 再 将 结果 输出 。 换 言 之 , 第 t 层 所 接收 到 的 输入 就 应 该 是 前 一 层 ( 即 第 f - 1 层 ) 
的 输出 。 如 果 将 i 作为 权重 w/?? 中 对 应 输入 项 的 索引 ， 那 么 i 的 取 值 就 介 于 0 一 dD 了。 注意 ， 这 里 
索引 为 0 的 项 就 对 应 了 每 一 层 中 的 偏 置 因子 。 综 上 所 述 ， 可 以 用 下 式 来 标记 每 一 层 上 的 权重 : 


1<?t<L, 层 数 
(2) 
大 二 








0<i<d(-D 了 ， 输 入 
1<j<qd%， 输出 
于 是 ; 前 一 层 的 输出 xr* 在 权 值 w49 的 作用 下 ， 可 以 进而 得 到 每 层 在 激励 函数 (在 本 例 中 
即 tanh) 作用 之 前 的 分 数 为 





d(t-1) 


4) 一 (£) , (2—1) 
sp ws 


i=0 
而 经 由 激励 函数 转换 后 的 结果 可 以 表示 为 : 
10 2 人 之 目 
?| a 
其 中 在 最 后 一 层 时 ， 我 们 可 以 选择 直接 输出 分 数 。 

当 每 一 层 的 节点 数 do,d), ,ad 和 相应 的 权重 wj 确定 之 后 ， 整 个 人 工 神经 网 络 的 结构 
就 已 经 确定 了 。 前 面 也 讲 过 神经 网 络 的 学 习 过 程 就 是 不 断 调整 权 值 以 适应 样本 数据 观察 值 的 过 
程 。 上 有 具体 这 个 训练 的 方法 ， 我 们 将 留待 后 面 介 绍 。 假 设 已 经 得 到 了 一 个 神经 网 络 (包括 权 重 )， 
现在 就 来 仔细 审视 一 下 这 个 神经 网 络 一 层 一 层 到 底 在 做 什么 。 从 本 质 来 说 ， 神 经 网 络 的 每 一 层 
其 实 就 是 在 执行 某 种 转换 ， 即 由 下 式 所 阐释 的 意义 : 


dlt-1) 


(的 ,人 一 天 
i=0 


也 就 是 说 神经 网 络 的 每 一 层 都 是 在 将 一 些 列 的 输入 zx) (也 就 是 上 一 层 的 输出 ) 来 和 相应 的 权 

重 w 扩 做 内 积 ， 并 将 内 积 的 结果 通过 一 个 激励 函数 处 理 之 后 的 结果 作为 输出 。 那 么 这 样 的 结 

在 什么 时 候 会 比较 大 呢 ? 显然 ， 当 x 向 量 与 w 向 量 越 相 近 的 时 候 ， 最 终 的 结果 会 越 大 。 从 向 量 分 

析 的 角度 来 说 ， 如 果 两 个 向 量 是 平行 的 ， 那 么 它们 之 间 就 有 很 强 的 相关 性 ， 那 么 它们 二 者 的 内 

只 就 会 比较 大 。 相 反 ， 如 果 两 个 向 量 是 垂直 的 ， 那 么 它们 之 间 的 相关 性 就 越 小 ， 相 应 地 ， 它 们 
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二 者 的 内 积 就 会 比较 小 。 因 此 ,神经 网 络 每 一 层 所 做 的 事 ， 其 实 也 是 在 检验 输入 向 量 x 与 权重 向 
量 w 在 模式 上 的 匹配 程度 如 何 。 换 句 话说， 神经 网 络 的 每 一 层 都 是 在 进行 一 种 模式 提取 。 


15.2.3 ”后 向 传播 算法 


当 已 经 有 了 一 个 神经 网 络 的 时 候 ， 即 每 一 层 的 节点 数 和 每 一 层 的 权重 都 确定 时 ， 我 们 可 以 
re eh a ne eke 
特征 向 量 ) xn = (x1,x2z,…,xq)， 我 们 将 其 投放 到 已 经 建立 起 来 的 网 络 中 就 可 以 得 到 一 个 输出 
G(xn), 这 个 值 就 相当 于 是 模型 给 出 的 预测 值 。 另 一 方面 , 对 于 收集 到 的 数据 集 而 言 , 每 一 个 xn 所 
对 应 的 那个 正确 的 分 类 结果 y 则 是 已 知 的 。 于 是 便 可 以 定义 模型 预测 值 与 实际 观察 值 二 者 之 间 
的 误差 为 : 

en = [Yn — G(xn)] 
最 终 的 目标 应 该 是 让 上 述 误差 最 小 ， 同 时 又 注意 6(xn) 是 一 个 关于 权重 wi 的 函数 ， 所 以 对 于 每 
个 数据 点 都 可 算得 一 





当 误 差 取得 极 小 值 时 ， 上 式 所 示 的 梯度 应 该 为 零 。 

注意 神经 网 络 中 的 每 一 层 都 有 一 组 权重 wt， 所 以 我 们 想 知道 的 其 实 是 最 终 的 误差 估计 与 
之 前 每 一 个 w 人 的 变动 间 的 关系 ， 这 乍 看 起 来 确实 有 点 令 人 无 从 下 手 。 所 以 不 妨 来 考虑 最 简单 
的 一 种 情况 ， 即 考虑 最 后 一 层 的 权重 w 外 的 变动 对 误差 en 的 影响 。 因 为 最 后 一 层 的 索引 是 L， 而 
且 输 出 节点 只 有 一 个 ， 所 以 使 用 的 标记 是 w， 可 见 这 种 情况 考虑 起 来 要 简单 许多 。 特 别 地 
根据 15.2.2 节 的 讨论 , 每 层 在 激励 函数 作用 之 前 的 分 数 为 St, 而 最 后 一 层 我 们 设 定 是 不 进行 处 
理 的， 所 以 它 的 输出 就 是 s 中 。 于 是 对 于 最 后 一 层 而 言 ， 误 差 定义 式 就 可 以 写成 : 


dL-D) 2 


= [yn — Gx) = [y — Pn xl 





根据 微 积分 中 的 链 式 求 导 法 则 可 得 下 式 ， 其 中 0<i&d&-D， 


L 
Oen _ Oe Be _2|y -sO]. [x a 
ow ds aww 2 





同 理 可 以 推广 到 对 于 中 间 任 一 层 有 : 


(£) 
Gen _ Oen 95) (8) , fC2-1) 
= [zx ] 


(A 因 
0wii 0si 0wi 





368 wwaibbt.com DODOODDOD 


第 15 章 人 工 神经 网 络 


其 中 ，1<t<L，0<i<d(-D，1<j<d 中 。 注 意 到 上 式 的 偏 微 分 链 中 的 第 2 项 之 计算 方法 与 前 面 
的 一 样 ， 只 是 偏 微分 链 中 的 第 1 项 一 时 还 无 法 计算 ， 所 以 用 符号 56!9 = 0en/0s1 来 表示 每 一 层 
激励 函数 作用 之 前 的 分 数 对 于 最 终 误差 的 影响 。 而 且 最 后 一 层 的 6/ 是 已 经 算得 的 ， 即 : 
5 多 = -2 — sO] 

于 是 现在 的 问题 就 变 成 了 如 何 计算 前 面 几 层 的 6 中 。 

既然 6 表示 的 是 每 层 激励 函数 作用 之 前 的 分 数 对 于 最 终 误差 的 影响 , 不 妨 来 仔细 考察 一 下 
每 层 的 分 数 到 底 是 如 何 影响 最 终 误差 的 。 从 下 面 的 转换 过 程 可 以 看 出 ,si 经 过 一 个 神经 元 的 转 
换 后 变 成 输出 y ?。 然 后 ，x/9 在 下 一 层 的 权重 wh* ?之 作用 下 ， 就 变 成 了 下 一 层 中 众多 神经 元 
的 输入 se .… s+D.…… 如 此 继续 下 去 直到 获得 最 终 输出 。 


(2+1) 
w(t) Sa 
SC Ey xz 一 : |=.… = 
i i Sle+1) n 
k 


理 清 上 述 关系 之 后 , 我 们 就 知道 在 计算 5 时 ， 其实 是 需要 一 条 更 长 的 微分 链 来 作为 过 渡 的 ,并 
再 次 使 用 6 标记 对 相应 的 部 分 做 替换 ， 即 有 : 


CCG+1) 





t+1 (4) 
四 Oen _ py Oen Osk ) Ox 
jij a (£+1) (#) 
9s A 0Q5. Ox 0 
de+1D 
a Ce+1) ,(£+1) (2) 
二 > Ox * Wik * [tanh’(s; )] 
k=1 


这 表明 每 一 个 6'? 可 由 其 后 面 一 层 的 54+ 算得， 而 最 后 一 层 的 6 由 是 前 面 已 经 算得 的 。 于 是 ， 
从 后 向 前 便 可 逐 层 计算 。 这 就 是 所 谓 的 后 向 传播 (Backward Propagation, BP) 算法 的 基本 思想 。 

后 向 传播 算法 是 一 种 常 被 用 来 训练 多 层 感 知 机 的 重要 算法 。 它 最 早 由 美国 科学 家 保罗 。 沃 
布 斯 (Paul Werbos) 于 1974 年 在 其 博士 学 位 论文 中 提出 ， 但 最 初 并 未 受到 学 术 界 的 重视 。 直 到 
1986 年 ,美国 认 知心 理学 家 大 卫 。 和 鲁 梅 哈 特 (David Rumelhart)、 英 裔 计算 机 科学 家 杰 弗 里 。 辛 
顿 (Geoffrey Hinton) 和 东北 大 学 教授 罗 纳 德 。 威 廉 姆 斯 (Ronald Williams) 才 在 一 篇 论文 中 重 
新 提出 了 该 算法 ， 并 获得 了 广泛 的 注意 ， 进 而 引起 了 人 工 神经 网 络 领域 研究 的 第 二 次 热潮 。 

后 向 传播 算法 的 主要 执行 过 程 是 ， 首先 对 ws 进行 初始 化 ， 即 给 各 连接 权 值 分 别 赋 一 个 区 
间 ( 一 1,1) 内 的 随机 数 ， 然 后 执行 如 下 步 又 。 

1. 随机 选择 一 个 n € {1,2,…,N}。 


2. 前 向 : 计算 所 有 的 x(9， 利 用 xco) = xn。 
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3. 后 向 : 由 于 最 后 层 的 56/9 是 已 经 算得 的 ,于 是 可 以 从 后 向 前 ， 逐 层 计算 出 所 有 的 8(0。 
4. 梯度 下 降 法 : wt? wh 一 nx D619。 


当 w5 更 新 到 令 en 足够 小 时 ， 即 可 得 到 最 终 的 网 络 模型 为 : 


oa 
ma 区 


考虑 到 实际 中 ， 上 述 方法 的 计算 量 有 可 能 会 比较 大 。 一 个 可 以 考虑 的 优化 思路 ， 就 是 所 谓 
的 mini-batch 法 。 此 时 ， 我 们 不 再 随机 选择 一 个 点 ， 而 是 随机 选择 一 组 点 ， 然 后 并 行 地 计算 步 
又 1 到 步骤 3。 然 后 取 一 个 xf 6 人 的 平均 值 , 并 用 该 平均 值 来 进行 步骤 4 中 的 梯度 下 降 更 新 。 
实践 中 ， 这 个 思路 是 非常 值得 推荐 的 一 种 方法 。 























15.3 ”神经 网 络 实践 


人 工 神 经 网 络 是 一 个 非常 复杂 的 话题 ， 神 经 网 络 的 类 型 也 有 多 种 。 本 章 所 介绍 的 是 其 中 比 
较 基础 的 内 容 。 针 对 不 同 的 神经 网 络 类 型 ，R 中 提供 的 用 于 建立 神经 网 络 的 软件 包 也 有 很 多 。 
本 市 将 介绍 其 中 最 为 常用 的 nnet 软件 包 ， 该 软件 包 主 要 用 来 建立 单 隐藏 层 的 前 馈 人 工 神经 网 络 
模型 。 


15.3.1 核心 函数 介绍 


实现 神经 网 络 的 核心 函数 是 nnet()， 它 主要 用 来 建立 单 隐藏 层 的 前 馈 人 工 神 经 网 络 模型 ， 
同时 也 可 以 用 它 来 建立 无 隐藏 层 的 前 馈 人 工 神 经 网 络 模型 (也 就 是 感知 机 模型 )。 


函数 nnet0 的 具体 使 用 格式 有 两 种 形式 ， 下 面 分 别 介绍 该 函数 的 两 种 使 用 方式 。 第 1 类 使 
用 格式 如 下 。 


nnet(formula, data, weights, subset, na.action, contrasts = NULL) 

其 中 , formula 代表 的 是 函数 模型 的 形式 。 formula 的 书写 规则 与 多 元 线性 回归 时 所 用 到 的 类 似 。 
参数 data 给 出 的 是 一 个 数据 框 ，formula 中 指定 的 变量 将 优先 从 该 数据 框 中 选取 。 参 数 weights 

代表 的 是 各 类 样本 在 模型 中 所 占 的 权重 ， 该 参数 的 默认 值 为 1， 即 各 类 样本 按 原始 比例 建立 模 
型 。 参 数 subset 主要 用 于 抽取 样本 数据 中 的 部 分 样本 作为 训练 集 ， 该 参数 所 使 用 的 数据 格式 为 
个 向 量 ， 向 量 中 的 每 个 数 代表 所 需要 抽取 样本 的 行 数 。 参 数 na.action 指定 了 当 发 现 有 NA 数 

据 时 将 会 采取 的 处 理 方式 。 


函数 nnet() 的 第 2 类 使 用 格式 如 下 。 


nnet (xy YA weights, size, Wtes, mask, 
linout = FALSE, entropy = FALSE, softmax = FALSE, 
censored = FALSE, skip = FALSE, rang = ,0.71, decay = 0, 
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maxte l= O00, Hess 7 FALSE, trace sm TRUE, MaxMWts = TO0D, 

abstol “1.0e74, realtol 1.0e78) 
其 中 ，x 为 一 个 矩阵 或 者 一 个 格式 化 数据 集 。 该 参数 就 是 在 建立 人 工 神 经 网 络 模型 中 所 需要 的 
自 变量 数据 。 参 数 y 是 在 建立 人 工 神经 网 络 模型 中 所 需要 的 类 别 变量 数据 。 但 在 人 工 神经 网 络 
模型 中 , 类 别 变 量 格式 与 其 他 函数 中 的 格式 有 所 不 同 。 这 里 的 类 别 变量 y 是 一 个 由 函数 class.ind() 
得 到 的 类 指标 和 矩阵。 


在 第 2 类 使 用 格式 中 的 参数 weights 的 使 用 方式 及 用 途 与 第 1 类 使 用 格式 中 的 参数 weights 
一 样 。size 代表 的 是 隐藏 层 中 的 节点 个 数 。 通 常 ， 该 隐藏 层 的 节点 个 数 应 该 为 输入 层 节 点 个 数 
的 1.2 一 1.5 倍 ， 即 自 变量 个 数 的 1.2 一 1.5 倍 。 如 果 将 参数 值 设 定 为 0， 则 表示 建立 的 模型 为 无 
隐藏 层 的 人 工 神经 网 络 模型 。 

参数 rang 指 的 是 初始 随机 权重 的 范围 是 [-rang, rang]。 通 常情 况 下 ， 该 参数 的 值 只 有 在 输入 
变量 很 大 的 情况 下 才 会 取 到 0.5 左右 ， 而 一 般 对 于 确定 该 参数 的 值 是 存在 一 个 经 验 公 式 的 ， 即 
要 求 rang 与 x 的 绝对 值 中 的 最 大 值 的 乘积 大 约 等 于 1。 


参数 decay 是 指 在 模型 建立 过 程 中 ,权重 值 的 衰减 精度 , 默认 值 为 0， 当 模 型 的 权重 值 每 次 
衰减 小 于 该 参数 值 时 ， 模 型 将 不 再 进行 迭代 。 参 数 maxit 控制 的 是 模型 的 最 大 迭代 次 数 ， 即 在 
模型 迁 代 过 程 中 ， 若 一 直 没 有 达到 停止 迭代 的 条 件 ， 那 么 模型 将 会 在 迭代 达到 该 最 大 次 数 后 停 
止 迁 代 ， 这 个 参数 的 设置 主要 是 为 了 防止 模型 陷入 死 循环 ， 或 者 是 一 些 没 必要 的 帮 代 。 


前 面 已 经 提 到 了 函数 class.ind(), 该 函数 也 位 于 nnet 软件 包 中 。 它 是 用 来 对 数据 进行 预 处 理 
的 。 更 具体 地 说 , 该 函数 是 用 来 对 建 模 数据 中 的 结果 变量 进行 处 理 的 , 也 就 是 前 面 所 说 的 那样 ， 
模型 中 的 y 必须 是 经 由 class.ind() 处 理 而 得 的 。 该 函数 对 结果 变量 的 处 理 ， 其 实 是 通过 结果 变量 
的 因子 变量 来 生成 一 个 类 指标 矩阵 。 它 的 基本 格式 如 下 。 
class.ind(c1) 网 
易 见 ， 函 数 中 只 有 一 个 参数 ， 该 参数 可 以 是 一 个 因子 向 量 ， 也 可 以 是 一 个 类 别 向 量 。 这 表明 其 
中 的 cl 可 以 直接 是 需要 进行 预 处 理 的 结果 变量 。 为 了 更 好 地 了 解 该 函数 的 功能 ， 不 妨 来 看 看 该 
函数 定义 的 源 代码 。 
claso.ind < Functiont(c) 
{ 

mis Length (cel) 

Chm la. tactor (Ch 

x tt” matrix(d0, n, lengtn(levels (cl)) ) 

wi tien tint(Uunoclass tel) -1) < 工 

dimnames (x) <- list(names (cl), levels (cl1)) 

总 
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所 以 该 函数 主要 是 将 向 量变 成 一 个 矩阵 ， 其 中 每 行 还 是 代表 一 个 样本 。 只 是 将 样本 的 类 别 用 0 
和 1 来 表示 ， 即 如 果 是 该 类 ， 则 在 该 类 别名 下 用 1 表示 ， 而 其 余 的 类 别名 下 用 0 表示 。 


15.3.2 ”应 用 分 析 实 践 

下 面 以 费 希 尔 的 高 尾 花 数据 为 例 ， 演 示 利 用 nnet 软件 包 提 供 的 函数 进行 基于 人 工 神 经 网 络 
的 数据 挖掘 方法 。 我 们 也 已 经 知道 ，nnet() 函 数 在 建立 支持 单 隐藏 层 前 馈 神 经 网 络 模型 的 时 候 有 
两 种 建立 方式 ， 即 根据 既定 公式 建立 模型 和 根据 所 给 的 数据 建立 模型 。 接 下 来 我 们 将 具体 演示 
基于 上 述 数 据 函 数 的 两 种 建 模 过 程 。 

根据 函数 的 第 一 种 使 用 格式 ， 在 针对 上 述 数据 建 模 时 ， 应 该 先 确定 我 们 所 建立 模型 所 使 用 
的 数据 ， 然 后 再 确定 所 建立 模型 的 响应 变量 和 自 变 量 。 来 看 下 面 这 段 示 例 代 码 。 注 意 ， 这 里 使 
用 的 是 iris3 数据 集 ， 这 与 第 14 章 中 所 用 到 的 总 尾 花 数据 是 一 致 的 ， 但 数据 格式 略 有 不 同 。 





> samp <= c(sample(1:50,25), sample(51:100,25), sample{101:150,25)) 

> Trd <=-"data. frame(rbind(iriss[,7il, iris3li2lr iris3[53)); 

+ species = factor(c(rep("s",50), rep("c", 50), repl("v", 50)))) 
SE Nn not (peoliesd™ sy datan rd baet = /sampy, Si2e = 2; 

+ rang = 0.1, decay = 5e-4, maxit = 200) 


正如 15.3.1 节 中 所 讲 的 ， 在 使 用 第 1 种 格式 建立 模型 时 ， 如 果 使 用 数据 中 的 全 部 自 变 量 作为 模 
型 自 变量 时 ， 我 们 可 以 简要 地 使 用 形 如 “species ~ .” 这 样 的 写法 ， 其 中 的 “. ”代替 全 部 的 
自 变量 。 

根据 函数 的 第 2 种 使 用 格式 ， 在 针对 上 述 数 据 建 立 模型 时 ， 首 先 应 该 将 因 变 量 和 自 变量 分 
别提 取出 。 自 变量 通常 用 一 个 箱 阵 表示 ， 而 对 于 因 变 量 则 应 该 进行 相应 的 预 处 理 。 具 体 而 言 ， 
就 是 利用 函数 class.ind() 将 因 变 量 处 理 为 类 指标 和 矩阵。 来 看 下 面 这 段 示 例 代码 。 
> targets <= elassind'( clrep("s", SO rept or SO EeRl 0 
本 放生 于 四) 


> ir.nn2 <- nnet (ir[samp;], targets[samp,], size = 2, rang = 0.1， 
十 decay = 5e-4, maxit = 200) 


在 使 用 第 2 种 格式 建立 模型 时 ， 不 需要 特别 强调 所 建立 模型 的 形式 ， 函 数 会 自动 将 所 有 输入 到 
x 矩阵 中 的 数据 作为 建立 模型 所 需要 的 自 变量 。 

在 上 述 过 程 中 , 两 种 模型 的 相关 参数 都 是 一 样 的 , 两 个 模型 的 权重 衰减 速度 最 小 值 都 为 Se-4， 
最 大 和 友 代 次 数 都 为 200 次 ， 隐 藏 层 的 节点 数 都 为 4 个 。 需 要 说 明 的 是 ， 由 于 初始 值 赋值 的 随机 
性 ， 达 到 收敛 状态 时 所 需 耗 用 的 迭代 次 数 并 不 会 每 次 者 一样。 事实 上 ， 每 次 构建 的 模型 也 不 会 
完全 都 一 致 ， 这 是 很 正常 的 。 

下 面 通过 summary() 函 数 来 检视 一 下 所 建 模型 的 相关 信息 。 在 输出 结果 的 第 1 行 可 以 看 到 
模型 的 总 体 类 型 ， 该 模型 总 共有 3 层 ， 输 入 层 有 4 个 节点 ， 隐 藏 层 有 2 个 节点 ， 输 出 层 有 3 个 
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节点 ， 该 模型 的 权重 总 共有 19 个 。 


» Mawmmary (tir nni) 
a 4-2-3 network with 19 weights 
options were - softmax modelling decay=5e-04 
b->hl il->hl i2->hl1 i3->hl i4->hi 
13s0. 9 .4.408r: S069"38<00 =10719 
B=->h2 ii he 2->h2 i332 1T4=>H2 
BS Oe ma a 
b=->ol Tl->0 hi2=>0F 
G7 TisT9 =8.58 
b->02 hi->02 上 2 一 >C2 
= 2 人 入 的 了 人 
bb=>O3iL=>Ozgzh2=>o3 
Ame 


在 输出 结果 的 第 2 部 分 显示 的 是 模型 中 的 相关 参数 的 设 定 ， 在 该 模型 的 建立 过 程 中 ， 我 们 
只 设 定 了 相应 的 模型 权重 衰减 最 小 值 ， 所 以 这 里 显示 出 了 模型 衰减 最 小 值 为 Se-4。 

接 下 来 的 第 3 部 分 是 模型 的 具体 构建 结果 ， 其 中 的 让 、 记 、i3 和 这 分别 代表 输入 层 的 4 个 
节点 。hl 和 h2 代表 的 是 隐藏 层 的 两 个 节点 ， 而 o1、o2 和 o3 则 分 别 代 表 输 出 层 的 3 个 节点 。 此 
外 ，b 就 是 模型 中 的 常数 项 。 第 3 部 分 中 的 数字 则 代表 的 是 每 一 个 节点 向 下 一 个 节点 的 输入 值 
的 权重 值 。 

在 利用 样本 数据 建立 模型 之 后 ， 接 下 来 就 可 以 利用 模型 来 进行 相应 的 预测 和 判别 。 在 利用 
nnet() 函 数 建立 的 模型 进行 预测 时 ， 我 们 将 用 到 R 软件 自 带 的 函数 predict() 对 模型 进行 预测 。 但 
是 在 使 用 predict() 函 数 时 ， 我 们 应 该 首先 确认 将 要 用 于 预测 模型 的 类 别 。 这 是 因为 建立 神经 网 
络 模型 时 有 两 种 不 同 的 建立 方式 。 所 以 利用 predictO) 函 数 进行 预测 时 ， 对 于 两 种 模型 也 会 存在 
两 种 不 同 的 预测 结果 ， 必 须 分 清楚 将 要 进行 预测 的 模型 是 哪 一 类 模型 。 

针对 第 1 种 建 模 方式 所 建立 的 模型 ， 可 采用 下 面 的 方式 来 进行 预测 判别 。 在 进行 数据 预测 
时 ， 应 注意 必须 保证 用 于 预测 的 自 变量 向 量 的 个 数 同 模型 建立 时 使 用 的 自 变量 向 量 个 数 一 致 ， 
否则 将 无 法 预测 结果 。 而 且 在 使 用 predict0 函 数 进行 预测 时 ， 不 用 刻意 去 调整 预测 结果 类 型 。 
原 数 据 集中 标记 为 c、s 和 v 的 3 种 营 尾 花 的 观测 样本 各 有 50 条 ， 在 建立 模型 时 ， 分 别 从 中 各 
抽取 25 条 共计 75 条 ,并 用 这 样 一 个 子 集 来 作为 训练 数据 集 。 下 面 的 代码 则 使 用 剩余 的 75 条 数 
据 来 作为 测试 数据 集 。 


> table(ird$species[-samp], predict (ir.nnl, ird[-samp,], type = "class")) 











CS Vv 

ee MN, 0 
S 250 0 

T 24 
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通过 上 述 预 测 结果 的 展示 ， 我 们 可 以 看 出 所 有 标记 为 ec 和 s 的 齐 尾 花 都 被 正确 地 划分 了 。 有 1 
个 本 来 应 该 被 标记 为 v 的 高 尾 花 被 错误 地 预测 成 了 c 类别。 总 的 来 说 ， 模 型 的 预测 效果 还 是 较 
为 理想 的 。 需 要 说 明 的 是 ， 训 练 集 和 测试 集 都 是 随机 采样 的 ， 所 以 也 不 可 能 每 次 都 得 到 跟 上 述 
预测 结果 相 一致 的 矩阵 ， 这 是 很 正常 的 。 


针对 第 2 种 建 模 方式 所 建立 的 模型 , 可 采用 下 面 的 方式 来 进行 预测 判别 。 从 输出 结果 来 看 ， 
所 有 标记 为 s 和 v 的 意 尾 花 都 被 正确 地 划分 了 。 有 2 个 本 来 应 该 被 标记 为 c 的 功 尾 花 被 错误 地 
预测 成 了 v 类 别 。 总 的 来 说 ， 模 型 的 预测 效果 还 是 较为 理想 的 。 
> pre.matrix <- function (true， pred) { 
name m=O(" or Sv 
true <- name[max.col (true)] 
cres <- name [max. Soe 
‘table(true, cres) a 


FF 


) 


> pre.matrix (targets[-samp,], predict(ir.nn2, ir[-samp,])) 
cres 
rule DB 
C -230 
S02 0 
a 
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民 语言 实战 
机 器 学 习 与 数据 分 析 


经 典 统计 理论 和 机 器 学 习 方法 为 数据 挖掘 提供 了 必要 的 分 析 技 术 。 本 书 系 统 地 介绍 统 
计 分 析 和 机 器 学 习 领 域 中 最 为 重要 和 流行 的 多 种 技术 及 其 基本 原理 ， 在 详解 有 关 算 法 的 基 
| 础 上 ,结合 大 量 R 语 言 实例 演示 了 这 些 理论 在 实践 中 的 使 用 方法 。 县 体内 容 被 分 成 三 个 部 分 ， 
即 R 语 言 编 程 基 础 、 基 于 统计 的 数据 分 析 方 法 以 及 机 器 学 习 理 论 。 统计 分 析 与 机 器 学 习 部 分 
又 具体 介绍 了 参数 估计 、 假 设 检验 、 极 大 似 然 估计 、 非 参数 检验 方法 ( 包括 列 联 分 析 、 符 
号 检验 、 符 号 秩 检验 等 ) 、 方 差分 析 、 线 性 回归 ( 包括 岭 回 归 和 Lasso 方 法 ) 、 远 辑 回归 、 
| 持 向 量 机 、 聚 类 分 析 ( 包括 K 均 值 算法 和 EM 算法 ) 和 人 工 神经 网 络 等 内 容 。 同 时 ， 统 计 理 论 
的 介绍 也 为 深化 读者 对 于 后 续 机 器 学 习 部 分 的 理解 提供 了 很 大 助 益 。 知 识 结构 和 阅读 进 
度 的 安排 上 既 兼 顾 了 循序 渐进 的 学 习 规 律 ， 亦 统筹 考虑 了 夯实 基础 的 必要 性 。 本 书 内 容 
与 实际 应 用 结合 紧密 ， 又 力求 突出 深入 浅 出 、 系 统 翔实 之 特色 ， 对 算法 原理 的 解释 更 是 
细致 入 微 
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